CN112231452A - 基于自然语言处理的问答方法、装置、设备及存储介质 - Google Patents

基于自然语言处理的问答方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112231452A
CN112231452A CN202011085684.1A CN202011085684A CN112231452A CN 112231452 A CN112231452 A CN 112231452A CN 202011085684 A CN202011085684 A CN 202011085684A CN 112231452 A CN112231452 A CN 112231452A
Authority
CN
China
Prior art keywords
sample
question
input
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011085684.1A
Other languages
English (en)
Inventor
郭茹霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN202011085684.1A priority Critical patent/CN112231452A/zh
Publication of CN112231452A publication Critical patent/CN112231452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,提供一种自然语言处理的问答方法、装置、设备及存储介质,在接收到问答指令时获取输入问题,并对所述输入问题进行预处理生成输入问题特征;根据输入问题特征在预设数据库中确定对应的匹配样本问题集;获取目标用户的用户行为信息,并根据所述用户行为信息对各匹配样本问题进行重排序,并根据排序结果在确定问答指令对应的目标样本问题;获取目标样本问题对应的目标样本答复信息,并输出目标样本答复信息。此外,本发明可应用于智慧医疗领域,进行智能客服的问答。另外还涉及区块链技术,预设数据库、用户行为信息可存储于区块链中。本发明结合人工智能、自然语言处理的思想,有利于提高回答的针对性和准确性,提高用户的使用体验。

Description

基于自然语言处理的问答方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种自然语言处理的问答方法、装置、设备及存储介质。
背景技术
传统的咨询行业是通过人工客服的方式实现与用户的沟通,这种客服方式需要投入较大的人力成本。而随着科技的发展,市面上开始出现自助客服,通过导航菜单的方式引导用户逐层选择问题类型,再根据用户的选择给出相应的回答;这种方式需要用户进行多次操作才能得到自己所需要的回答,对于不熟悉业务的用户而言,会导致其无法选择正确的问题选项,进而无法获取到自己想要的回答。因此,如何解决现有自助客服系统的问题回复效率低下,成为了目前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种基于自然语言处理的问答方法、装置、设备及存储介质,旨在解决现有自助客服系统的问题回复效率低下的技术问题。
为实现上述目的,本发明实施例提供一种基于自然语言处理的问答方法,所述基于自然语言处理的问答方法包括以下步骤:
在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;
根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;
获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题;
获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。
此外,为实现上述目的,本发明实施例还提供一种基于自然语言处理的问答装置,所述基于自然语言处理的问答装置包括:
指令接收模块,用于在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;
问题匹配模块,用于根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;
问题重排模块,用于获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题;
信息输出模块,用于获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。
此外,为实现上述目的,本发明实施例还提供一种基于自然语言处理的问答设备,所述基于自然语言处理的问答设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的基于自然语言处理的问答方法的步骤。
此外,为实现上述目的,本发明实施例还提供一种存储介质,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于自然语言处理的问答方法的步骤。
本发明实施例的用户可根据实际情况输入自己的问题信息,问答设备(或终端、服务器等)结合人工智能、自然语言处理的思想,根据用户的输入自动进行预处理和问题检索,同时结合用户的行为信息得到对应的样本问题和样本回答,并输出该样本回答,以为用户提供问答服务,有利于减少用户的操作量,即使是对业务不熟悉的用户而言,也能得到问题解答;且由于问题的回答是基于用户输入的问题和用户的行为信息确定,有利于提高回答的针对性和准确性,提高用户的使用体验。
附图说明
图1为本发明实施例方案中涉及的基于自然语言处理的问答设备的硬件结构示意图;
图2为本发明基于自然语言处理的问答方法第一实施例的流程示意图;
图3为本发明基于自然语言处理的问答装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的基于样本匹配的问答方法主要应用于基于自然语言处理的问答设备,该基于自然语言处理的问答设备可以是服务器、PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的基于自然语言处理的问答设备的硬件结构示意图。本发明实施例中,基于自然语言处理的问答设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对基于样本匹配的问答设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及计算机程序。
在图1中,网络通信模块主要用于连接数据库,与数据库进行数据通信;而处理器1001可以调用存储器1005中存储的计算机程序,并执行本发明实施例提供的基于自然语言处理的问答方法。
本发明实施例提供了一种基于自然语言处理的问答方法。
参照图2,图2为本发明基于自然语言处理的问答方法第一实施例的流程示意图。
本实施例中,所述基于自然语言处理的问答方法包括以下步骤:
步骤S10,在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;
传统的客服行业是通过人工客服的方式实现与用户的沟通,这种客服方式需要投入较大的人力成本。而随着科技的发展,市面上开始出现自助客服,通过导航菜单的方式引导用户逐层选择问题类型,再根据用户的选择给出相应的回答;这种方式需要用户进行多次操作才能得到自己所需要的回答,对于不熟悉业务的用户而言,会导致其无法选择正确的问题选项,进而无法获取到自己想要的回答。因此,如何解决现有自助客服系统的问题回复效率低下,成为了目前亟待解决的技术问题。对此,本实施例提出一种基于自然语言处理的问答方法,用户可根据实际情况输入自己的问题信息,问答设备(或终端、服务器等)结合人工智能、自然语言处理的思想,根据用户的输入自动进行预处理和问题检索,同时结合用户的行为信息得到对应的样本问题和样本回答,并输出该样本回答,以为用户提供问答服务,有利于减少用户的操作量,即使是对业务不熟悉的用户而言,也能得到问题解答;且由于问题的回答是基于用户输入的问题和用户的行为信息确定,有利于提高回答的针对性和准确性,提高用户的使用体验。
本实施例中的基于自然语言处理的问答方法可以是由服务器实现的,例如用户通过用户端(如用户自己的手机、专用的客服机器人等)向服务器发送问题信息,服务器根据问题信息进行回答;当然该方法也可以是由用户端(或专用的客服机器人)独立完成,例如用户在自己的手机上进行操作,手机本身独立实现本方案。为说明方便,后续以服务器实现为例进行说明。
服务器在进行应答前,首先要获取用户的问题信息;该问题信息可以是用户在用户端触发问题指令后输入后,由用户端发送至服务器,例如,用户在自己的手机上以手动输入或语音输入的方式输入自己的问题信息,手机再将该问题信息发送至服务器,为说明方便,服务器获取的用户的问题信息可称为输入问题。服务器在接收到该输入问题时,将该输入问题进行预处理,以得到标准化、结构化的输入问题特征,便于后续通过该输入问题特征进行相关的问题检索;其中,输入问题特征可以是以特征向量(可称为输入特征向量)、特征矩阵(可称为输入特征矩阵)、向量图feature map(可称为输入向量图)等方式表征。
进一步的,该预处理的包括文本分词、关键词提取、同义词扩展、句子向量获取等。其中,文本分词是指将文本中连续的字序列按照一定的规范重新组合成词序列的过程,文本分词可以通过多种方式实现,如正向最大匹配法、逆向最大匹配法、特征扫描(标志切分)、基于统计模型的分词法等。关键词提取是指从分词得到的词序列中提取得到词序列的业务特征关键词(或者称为问题特征关键词),关键词提取可以是通过字符串匹配的方式实现,即预先根据业务情况定义若干的样本关键词,然后将词序列与样本关键词进行比对,进而在词序列中识别并提取与样本关键词匹配的关键词。同义词扩展获取关键词相对于的同义词(与关键词意思相同或相近的词),该同义词的扩展可以是通过语料数据库的方式实现的,即预先设置语料数据库,数据库中包括若干个同义词集合,每个同义词集合中包括有若干个意思相近的词,在进行同义词扩展时,也即在数据库中找到关键词所在的同义词集合,该集合中的其它词即为该关键词的同义词;值得说明的是,词序列的关键词,不一定具有对应的同义词。句子向量获取是指根据提取得到的关键词、扩展得到的同义词获取对应的向量组,也即将关键词、同义词映射得到对应的向量元素,再将这些向量元素进行组合得到向量,该向量可认为是输入问题的输入特征向量,用以体现输入问题的输入问题特征;其中,由于一个关键词可能会对应多个同义词,因此输入问题的输入特征向量可能具有多个,例如,输入问题的关键词为A1和B1,而关键词A1具有同义词A2,则输入问题的输入特征向量为(A1,B1)和(A2,B1),A1、A2、B1又可称为输入特征向量的元素。
步骤S20,根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;
本实施例中,在进行预处理得到预处理结果(输入问题特征)时,即可根据该预处理结果在数据库中进行样本问题检索和匹配,以确定输入问题对应的匹配样本问题。其中,数据库中包括有若干的样本问题、以及这些样本问题所对应的样本回答和样本特征向量。样本问题检索的过程,即是通过输入问题的输入特征向量与样本问题的样本特征向量来计算输入与样本问题的相似度,然后根据相似度从数据中筛选得到若干相似度较大的样本问题,这些相似度较大的样本问题可称为匹配样本问题,匹配样本问题形成了匹配样本集合。其中,匹配样本问题可以是特征向量的相似度大于一定阈值的样本问题,又或者是相似度最大的几个样本问题。在计算相似度时,可以是通过余弦相似度、BM25等方式实现。
值得说明的是,一个输入问题可能具有多个输入特征向量,而在计算相似度时,可分别使用这些输入特征向量进行计算,然后取最大的相似度作为输入问题与样本问题的相似度。
步骤S30,获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题。
本实施例中,在得到匹配样本集合时,服务器还将要对匹配样本问题进行重排序,以排序结果从多个匹配样本问题中确定目标样本问题;而本实施例在进行重排序时,是结合用户的行为信息进行的,进而提高回答的针对性和准确性。
具体的,所述用户行为信息包括历史浏览信息以及历史交易信息,所述步骤S30包括:
步骤S31,获取所述目标用户的历史浏览信息以及历史交易信息,并根据所述历史浏览信息以及所述历史交易信息确定所述目标用户的目标兴趣标签;
本实施例中,用户的行为信息可以包括用户历史业务记录,历史浏览记录,根据这些行为信息可获取用户的兴趣标签,该兴趣标签用于表征用户近期可能与哪些业务场景、业务节点等产生交集,并以此预测用户可能是基于哪一业务场景、业务节点进行提问。例如,根据用户的行为信息可知户在24小时有两次搜索慢性病投保,对此可获取用户的兴趣标签包括慢性病和投保禁忌,用户本次提问可能是针对某投保业务关于疾病的咨询。或者,用户在历史搜索中有多次输入A信托基金,则该用户的兴趣标签可以包括A信托基金。用户本次提问则可能是针对信托基金业务的咨询。
步骤S32,将所述目标兴趣标签与各匹配样本问题的样本属性标签分别进行匹配,确定各匹配样本问题对应的匹配标签数,并根据各匹配样本问题对应的匹配标签数对各匹配样本问题进行重排序;
对于样本问题,具有对应的样本属性标签,这些样本属性标签用以表示样本问题所涉及的问题类型,包括样本问题所属的业务类型、业务节点、属于操作流程类问题/金额类问题等;例如,某样本问题的样本属性标签包括慢性病投保,表示该样本问题是涉及投保有关疾病限制的问题。或者,样本属性标签包括A信托基金,则表示该样本问题是涉及信托基金的问题。然后,服务器可将用户的兴趣标签分别与各匹配样本问题的样本属性标签进行比对,确定出各匹配样本问题的匹配标签数,并根据匹配标签数对各匹配样本问题排序,匹配标签数越大、排序越靠前,从而得到排序结果。
步骤S33,根据排序结果在各匹配样本问题中确定所述问答指令对应的目标样本问题。
在得到排序结果时,排序越靠前的匹配样本问题,可认为其与用户行为的重复度越高,然后可根据排序结果在所述匹配样本问题中确定目标样本问题,例如排序最靠前的匹配样本问题为目标样本问题,又或是排序前X个匹配样本问题为目标样本问题。
进一步的,在根据匹配标签数对各匹配样本问题排序前,可以通过先对各匹配标签数进行归一化的映射,将其映射至(0,1)的区间,例如通过softmax函数的方式进行映射,通过softmax函数可将各匹配标签数映射成为(0,1)的值,且这些值的累和为1(满足概率的性质)。而在得到各匹配标签数的映射值时,再根据映射值的大小对各匹配样本问题排序,映射值越大,排序越靠前,此时该映射值可认为是输入问题等同于匹配样本问题的概率。然后,可将最大的映射值与一预设阈值(如0.8)进行比较,若最大的映射值大于该预设阈值,则可将最大的映射值对应的匹配样本问题确定为目标样本问题;而若最大的映射值小于该预设阈值,则可将排序前X个匹配样本问题确定为目标样本问题,又或者是将排序前X个匹配样本问题返回用户端,根据用户端返回的选择反馈确定目标样本问题。
步骤S40,获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。
本实施例中,在确定目标样本问题时,服务器即可在数据库中获取目标样本问题对应的目标样本回答,并输出所述目标样本回答至用户端,以使用户获取到该目标样本回答。
需要强调的是,为进一步保证上述样本问题、样本答复、用户行为信息的私密和安全性,上述数据库可以存储于一区块链的节点中,用户行为信息也可以存储于一区块链的节点中。
本实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本实施例在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题;获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。通过以上方式,用户可根据实际情况输入自己的问题信息,问答设备(或终端、服务器等)结合人工智能、自然语言处理的思想,根据用户的输入自动进行预处理和问题检索,同时结合用户的行为信息得到对应的样本问题和样本回答,并输出该样本回答,以为用户提供问答服务,有利于减少用户的操作量,即使是对业务不熟悉的用户而言,也能得到问题解答;且由于问题的回答是基于用户输入的问题和用户的行为信息确定,有利于提高回答的针对性和准确性,提高用户的使用体验。
基于上述基于自然语言处理的问答方法第一实施例,提出本发明基于自然语言处理的问答方法第二实施例。
本实施例中,所述步骤S20包括:
步骤S21,根据所述输入问题特征对应的输入特征向量以及所述数据库中各样本问题对应的样本特征向量,计算所述输入问题与各样本问题的相似度;
本实施例在进行预处理得到预处理结果(输入问题特征)时,即可根据该预处理结果在数据库中进行样本问题检索和匹配,以确定输入问题对应的匹配样本问题。其中,数据库中包括有若干的样本问题、以及这些样本问题所对应的样本回答和样本特征向量。样本问题检索的过程,即是通过输入问题的输入特征向量与样本问题的样本特征向量来计算输入与样本问题的相似度。
本实施例中,在计算相似度时,是从各样本问题中依次取一样本问题记为当前样本问题,并获取所述当前样本问题的当前样本特征向量。然后,将所述输入特征向量以及当前样本特征向量代入预设相似度公式,计算所述输入问题与当前样本问题的相似度,所述预设相似度公式为:
S=∑(wi*R(qi))
S为所述输入问题与当前样本问题的相似度;qi为所述输入特征向量Q中的第i个元素;wi为qi的权重,所述数据库中包含了qi的样本特征向量数越多,wi越小;R(qi)为qi与当前样本特征向量的相关性得分,R(qi)根据qi在所述输入特征向量中出现次数、qi在当前样本特征向量中出现次数、当前样本特征向量的元素数、所述数据库所有样本问题的样本特征向量的平均元素数确定。
进一步的,所述wi是根据预设权重公式计算,所述预设权重公式为:
Figure BDA0002720306590000091
N为所述数据库中的样本问题数;n(qi)为所述数据库中包含qi的样本特征向量数。对于wi的设置,知识库中包含了qi的样本特征向量数越多,qi的权重则越低。也就是说,当很多样本问题的样本特征向量都包含了qi时,qi的区分度就不高,因此使用qi来查询的重要度就较低。
再进一步的,关于R(qi),是根据qi在所述输入特征向量中出现次数、qi在当前样本特征向量中出现次数、当前样本特征向量的元素数、所述数据库所有样本问题的样本特征向量的平均元素数确定和预设相关性公式计算得到R(qi),所述预设相关性公式为:
Figure BDA0002720306590000101
其中,
Figure BDA0002720306590000102
k1、k2、b为预设参数,且均大于零;
F1(qi)为qi在当前样本特征向量中出现次数;F2(qi)为qi在输入特征向量中出现次数;dl为当前样本特征向量的元素数;avgdl为所述数据库所有样本问题的样本特征向量的平均元素数。
步骤S22,根据所述输入问题与各样本问题的相似度,在各样本问题中确定匹配样本问题,其中,所述匹配样本问题与所述输入问题的相似度大于预设阈值。
在得到输入问题与各样本问题的相似度后,将根据相似度从各样本问题中筛选得到若干匹配样本问题,其中,匹配样本问题可以是相似度大于一定阈值的样本问题。值得说明的是,一个问题信息可能具有多个特征向量,而在计算相似度时,可分别使用这些特征向量进行计算,然后取最大的相似度作为问题信息与样本问题的相似度。
通过以上方式,通过得到输入问题与样本问题的相似度,进而得到输入问题对于的匹配样本问题,实现了输入问题的初步检索,便于后续进行重排序。
基于上述基于自然语言处理的问答方法第一或第二实施例,提出本发明基于自然语言处理的问答方法第三实施例。
本实施例中,所述步骤S40之后,还包括:
步骤S50,在接收到所述目标用户基于所述目标样本答复信息反馈的回答评价信息时,根据所述回答评价信息确定所述目标样本答复信息对应的回答效果,以根据所述回答效果分配人工客户或调整目标样本答复信息。
本实施例中,在输出在反馈相关目标样本答复信息后,服务器还可以获取用户基于所述目标样本答复信息反馈的回答评价信息,并根据所述回答评价信息确定回答效果,以根据所述回答效果分配人工客户或调整相关算法。例如,若用户的评价为不满意,或未解决问题,则服务器可获取用户的相关联系方式(如账户信息、电话号码等),并将用户的联系方式发送至对应的人工坐席端,以通过人工客服的方式为用户提供解答;此外,还可以将其它的匹配样本问题所对应的答复信息作为新的目标样本答复信息,并输出至用户端,以供用户获取其它的答复信息。当然,还可以是对检索的相关算法进行相应调整等。
通过上述方式,本实施例在输入目标样本答复信息后获取用户反馈,并根据反馈情况进行进一步的处理,有利于提高问答的准确性,提高用户的使用体验。
此外,本发明实施例还提供一种基于基于自然语言处理的问答装置。
参照图3,图3为本发明基于自然语言处理的问答装置第一实施例的功能模块示意图。
本实施例中,所述基于自然语言处理的问答装置包括:
指令接收模块10,用于在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;
问题匹配模块20,用于根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;
问题重排模块30,用于获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题;
信息输出模块40,用于获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。
进一步的,所述问题匹配模块20包括:
相似度计算单元,用于根据所述输入问题特征对应的输入特征向量以及所述数据库中各样本问题对应的样本特征向量,计算所述输入问题与各样本问题的相似度;
第一确定单元,用于根据所述输入问题与各样本问题的相似度,在各样本问题中确定匹配样本问题,其中,所述匹配样本问题与所述输入问题的相似度大于预设阈值。
进一步的,所述相似度计算单元,具体用于从各样本问题中依次取一样本问题记为当前样本问题,并获取所述当前样本问题的当前样本特征向量;将所述输入特征向量以及当前样本特征向量代入预设相似度公式,计算所述输入问题与当前样本问题的相似度,所述预设相似度公式为:
S=∑(wi*R(qi))
S为所述输入问题与当前样本问题的相似度;qi为所述输入特征向量Q中的第i个元素;wi为qi的权重,所述数据库中包含了qi的样本特征向量数越多,wi越小;R(qi)为qi与当前样本特征向量的相关性得分,R(qi)根据qi在所述输入特征向量中出现次数、qi在当前样本特征向量中出现次数、当前样本特征向量的元素数、所述数据库所有样本问题的样本特征向量的平均元素数确定。
进一步的,所述相似度计算单元,还用于根据预设权重公式计算wi,所述预设权重公式为:
Figure BDA0002720306590000121
N为所述数据库中的样本问题数;n(qi)为所述数据库中包含qi的样本特征向量数。
进一步的,所述相似度计算单元,还用于根据qi在所述输入特征向量中出现次数、qi在当前样本特征向量中出现次数、当前样本特征向量的元素数、所述数据库所有样本问题的样本特征向量的平均元素数确定和预设相关性公式计算R(qi),所述预设相关性公式为:
Figure BDA0002720306590000122
其中,
Figure BDA0002720306590000123
k1、k2、b为预设参数,且均大于零;F1(qi)为qi在当前样本特征向量中出现次数;F2(qi)为qi在输入特征向量中出现次数;dl为当前样本特征向量的元素数;avgdl为所述数据库所有样本问题的样本特征向量的平均元素数。
进一步的,所述问题重排模块30,包括:
标签获取单元,用于获取所述目标用户的历史浏览信息以及历史交易信息,并根据所述历史浏览信息以及所述历史交易信息确定所述目标用户的目标兴趣标签;
标签匹配单元,用于将所述目标兴趣标签与各匹配样本问题的样本属性标签分别进行匹配,确定各匹配样本问题对应的匹配标签数,并根据各匹配样本问题对应的匹配标签数对各匹配样本问题进行重排序;
第二确定单元,用于根据排序结果在各匹配样本问题中确定所述问答指令对应的目标样本问题。
进一步的,所述基于自然语言处理的问答装置还包括:
效果确定模块,用于在接收到所述目标用户基于所述目标样本答复信息反馈的回答评价信息时,根据所述回答评价信息确定所述目标样本答复信息对应的回答效果,以根据所述回答效果分配人工客户或调整目标样本答复信息。
其中,上述基于自然语言处理的问答装置中各个模块与上述基于自然语言处理的问答方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于自然语言处理的问答方法的步骤。
其中,计算机程序被执行时所实现的方法可参照本发明基于自然语言处理的问答方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于自然语言处理的问答方法,其特征在于,所述基于自然语言处理的问答方法包括以下步骤:
在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;
根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;
获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题;
获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。
2.如权利要求1所述的自然语言处理的问答方法,其特征在于,所述根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集的步骤具体包括:
根据所述输入问题特征对应的输入特征向量以及所述数据库中各样本问题对应的样本特征向量,计算所述输入问题与各样本问题的相似度;
根据所述输入问题与各样本问题的相似度,在各样本问题中确定匹配样本问题,其中,所述匹配样本问题与所述输入问题的相似度大于预设阈值。
3.如权利要求2所述的基于自然语言处理的问答方法,其特征在于,根据所述输入问题特征对应的输入特征向量以及所述数据库中各样本问题对应的样本特征向量,计算所述输入问题与各样本问题的相似度的步骤具体包括:
从各样本问题中依次取一样本问题记为当前样本问题,并获取所述当前样本问题的当前样本特征向量;
将所述输入特征向量以及当前样本特征向量代入预设相似度公式,计算所述输入问题与当前样本问题的相似度,所述预设相似度公式为:
S=∑(wi*R(qi))
S为所述输入问题与当前样本问题的相似度;
qi为所述输入特征向量Q中的第i个元素;
wi为qi的权重,所述数据库中包含了qi的样本特征向量数越多,wi越小;
R(qi)为qi与当前样本特征向量的相关性得分,R(qi)根据qi在所述输入特征向量中出现次数、qi在当前样本特征向量中出现次数、当前样本特征向量的元素数、所述数据库所有样本问题的样本特征向量的平均元素数确定。
4.如权利要求3所述的基于自然语言处理的问答方法,其特征在于,所述将所述相关问题信息特征对应的特征向量以及各样本问题对应的特征向量分别代入预设相似度公式,分别计算所述相关问题信息与各样本问题的相似度的步骤之前,还包括:
根据预设权重公式计算wi,所述预设权重公式为:
Figure FDA0002720306580000021
N为所述数据库中的样本问题数;
n(qi)为所述数据库中包含qi的样本特征向量数。
5.如权利要求3所述的基于自然语言处理的问答方法,其特征在于,所述将所述相关问题信息特征对应的特征向量以及各样本问题对应的特征向量分别代入预设相似度公式,分别计算所述相关问题信息与各样本问题的相似度的步骤之前,还包括:
根据qi在所述输入特征向量中出现次数、qi在当前样本特征向量中出现次数、当前样本特征向量的元素数、所述数据库所有样本问题的样本特征向量的平均元素数确定和预设相关性公式计算R(qi),所述预设相关性公式为:
Figure FDA0002720306580000022
其中,
Figure FDA0002720306580000023
k1、k2、b为预设参数,且均大于零;
F1(qi)为qi在当前样本特征向量中出现次数;
F2(qi)为qi在输入特征向量中出现次数;
dl为当前样本特征向量的元素数;
avgdl为所述数据库所有样本问题的样本特征向量的平均元素数。
6.如权利要求1所述的基于自然语言处理的问答方法,其特征在于,所述用户行为信息包括历史浏览信息以及历史交易信息,所述获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题的步骤具体包括:
获取所述目标用户的历史浏览信息以及历史交易信息,并根据所述历史浏览信息以及所述历史交易信息确定所述目标用户的目标兴趣标签;
将所述目标兴趣标签与各匹配样本问题的样本属性标签分别进行匹配,确定各匹配样本问题对应的匹配标签数,并根据各匹配样本问题对应的匹配标签数对各匹配样本问题进行重排序;
根据排序结果在各匹配样本问题中确定所述问答指令对应的目标样本问题。
7.如权利要求1至6任意一项所述的基于自然语言处理的问答方法,其特征在于,所述获取所述目标样本问题对应的目标样本答复信息,输出并显示所述目标样本答复信息的步骤之后,还包括:
在接收到所述目标用户基于所述目标样本答复信息反馈的回答评价信息时,根据所述回答评价信息确定所述目标样本答复信息对应的回答效果,以根据所述回答效果分配人工客户或调整目标样本答复信息。
8.一种基于自然语言处理的问答装置,其特征在于,所述基于自然语言处理的问答装置包括:
指令接收模块,用于在接收到目标用户操作触发的问答指令时,获取所述问答指令中的输入问题,并对所述输入问题进行预处理,生成输入问题特征;
问题匹配模块,用于根据所述输入问题特征在预设数据库中进行样本问题匹配,确定所述输入问题对应的匹配样本问题,并生成匹配样本问题集;
问题重排模块,用于获取所述目标用户的用户行为信息,并根据所述用户行为信息对所述匹配样本问题集中的匹配样本问题进行重排序,并根据排序结果在所述匹配样本问题集中确定所述问答指令对应的目标样本问题;
信息输出模块,用于获取所述目标样本问题对应的目标样本答复信息,并输出所述目标样本答复信息。
9.一种基于自然语言处理的问答设备,其特征在于,所述基于自然语言处理的问答设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于自然语言处理的问答方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基于自然语言处理的问答方法的步骤。
CN202011085684.1A 2020-10-12 2020-10-12 基于自然语言处理的问答方法、装置、设备及存储介质 Pending CN112231452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011085684.1A CN112231452A (zh) 2020-10-12 2020-10-12 基于自然语言处理的问答方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011085684.1A CN112231452A (zh) 2020-10-12 2020-10-12 基于自然语言处理的问答方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112231452A true CN112231452A (zh) 2021-01-15

Family

ID=74112123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011085684.1A Pending CN112231452A (zh) 2020-10-12 2020-10-12 基于自然语言处理的问答方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112231452A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256180A (zh) * 2021-07-07 2021-08-13 杭州实在智能科技有限公司 一种基于机器学习的客服工单信息智能动态加载方法和系统
CN113488190A (zh) * 2021-07-12 2021-10-08 北京声智科技有限公司 流调信息获取方法、装置及电子设备
CN116450918A (zh) * 2023-06-09 2023-07-18 辰风策划(深圳)有限公司 线上信息咨询方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256180A (zh) * 2021-07-07 2021-08-13 杭州实在智能科技有限公司 一种基于机器学习的客服工单信息智能动态加载方法和系统
CN113488190A (zh) * 2021-07-12 2021-10-08 北京声智科技有限公司 流调信息获取方法、装置及电子设备
CN116450918A (zh) * 2023-06-09 2023-07-18 辰风策划(深圳)有限公司 线上信息咨询方法、装置及电子设备
CN116450918B (zh) * 2023-06-09 2023-08-25 辰风策划(深圳)有限公司 线上信息咨询方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112231452A (zh) 基于自然语言处理的问答方法、装置、设备及存储介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110795542A (zh) 对话方法及相关装置、设备
CN117114514B (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
US6470337B1 (en) Information retrieval system using a hierarchical index for narrowing a retrieval result and its method and storing medium with information retrieval program stored therein
CN113127621A (zh) 对话模块的推送方法、装置、设备及存储介质
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN112052297A (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN111160699A (zh) 一种专家推荐方法及系统
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN112860850A (zh) 人机交互方法、装置、设备及存储介质
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN110941638A (zh) 应用分类规则库构建方法、应用分类方法及装置
CN111367942B (zh) 通讯录检索方法及装置
CN114676237A (zh) 语句相似度确定方法、装置、计算机设备和存储介质
CN114780589A (zh) 多表连接查询方法、装置、设备及存储介质
CN116414940A (zh) 标准问题的确定方法、装置及相关设备
CN113204628A (zh) 用于获取问句答案的方法、装置、电子设备及可读存储介质
CN113609833A (zh) 文件的动态生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination