CN110555093B - 文本匹配方法、装置及设备 - Google Patents

文本匹配方法、装置及设备 Download PDF

Info

Publication number
CN110555093B
CN110555093B CN201810274548.3A CN201810274548A CN110555093B CN 110555093 B CN110555093 B CN 110555093B CN 201810274548 A CN201810274548 A CN 201810274548A CN 110555093 B CN110555093 B CN 110555093B
Authority
CN
China
Prior art keywords
text
word
matching
vocabulary
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810274548.3A
Other languages
English (en)
Other versions
CN110555093A (zh
Inventor
周维
徐健鹏
李维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810274548.3A priority Critical patent/CN110555093B/zh
Publication of CN110555093A publication Critical patent/CN110555093A/zh
Application granted granted Critical
Publication of CN110555093B publication Critical patent/CN110555093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本匹配方法、装置及设备。所述方法包括:获取第一文本和第二文本;根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离。本申请实施例的文本匹配方法,综合文本中各个词汇的含义以及文本整句的含义,确定两文本的匹配程度,使得匹配计算的信息全面完整,从而能够提高文本匹配的准确度,提高用户的使用体验。

Description

文本匹配方法、装置及设备
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本匹配方法、装置及设备。
背景技术
目前,智能问答系统广泛应用于服务领域,一种可选的智能问答流程包括:预先将用户的常见问题(Frequently Asked Questions,FAQ)整理形成问题库,并将问题库以及其中每个问题对应的答案存储在智能问答系统中,当智能问答系统接收到用户输入的问题时,从问题库中匹配与输入问题最接近的目标问题,进而,向用户显示目标问题对应的答案。
现有技术中,智能问答系统基于文本搜索或者句向量模型执行匹配操作。基于文本搜索的匹配原理是,提取输入问题的关键词,将问题库中包含所提取的关键词最多的问题,确定为目标问题。基于句向量模型匹配原理是,按照预设的句向量模型计算输入问题的句向量,将问题库中句向量与输入问题的句向量最接近的问题,确定为目标问题。
其中,由于基于文本搜索执行字符串匹配操作,不考虑所提取的关键词的含义,并且所提取的关键词很大程度上也无法准确体现输入问题的含义,从而导致匹配的准确度较低。而通过句向量模型执行匹配操作,所得到的句向量仅能体现问题句子整句的大致含义,所捕捉的句子含义并不准确,从而导致匹配的准确度也较低。
发明内容
本申请实施例提供了一种文本匹配方法、装置及设备,以解决现有匹配方法的匹配准确度低的问题。
第一方面,本申请实施例提供了一种文本匹配方法,该方法包括,
获取第一文本和第二文本;
根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离,所述含义匹配距离用于指示所述第一文本与所述第二文本的含义匹配程度。
由于词向量用于表示文本中词汇的含义,句向量用于表示文本整句的含义,因此,根据第一文本的句向量和词向量以及第二文本的句向量和词向量计算得到的含义匹配距离,能够体现出第一文本和第二文本的词汇含义的匹配程度,以及第一文本和第二文本整句含义的匹配程度。
由此可见,本申请实施例的匹配方法,综合第一文本和第二文本词汇含义和整句含义的匹配程度,确定二者的匹配程度,能够将词汇含义作为文本匹配的一项信息,从而能够提高文本匹配的准确度。
一种可选的设计中,所述根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量,计算所述第一文本和所述第二文本的含义匹配距离包括:
分别确定出所述第一文本的K个词向量和所述第二文本的K个词向量,K是正整数;
根据所述第一文本的K个词向量和所述第二文本的K个词向量计算词向量匹配距离;
根据所述词向量匹配距离和句向量匹配距离,计算出所述含义匹配距离,所述句向量匹配距离根据所述第一文本的句向量与所述第二文本的句向量计算得到。
其中,词向量用于表示文本中词汇的含义,词向量之间的距离能够表达量词汇之间的匹配程度。基于此,采用本实现方式,能够将词汇的匹配程度作为文本匹配的参数之一,从而提高文本匹配的准确度。
一种可选的设计中,所述分别确定出所述第一文本和所述第二文本的K个词向量包括:
确定所述第一文本包含的L个词汇字符串,L是大于K的整数;
确定所述第二文本包含的M个词汇字符串,M是大于K的整数;
根据所述L个词汇字符串和所述M个词汇字符串,确定出所述第一文本的K个词汇字符串和所述第二文本的K个词汇字符串;
分别计算所述第一文本的K个词汇字符串中每个词汇字符串的词向量,以及所述第二文本的K个词汇字符串中每个词汇字符串的词向量,得到所述第一文本的K个词向量和所述第二文本的K个词向量。
具体的,文本中通常包含大量的停用词,而由于停用词出现的频率非常高,对语句含义的影响很小,所以,在执行文本匹配时,将文本中所包含的关键词用于匹配计算。
采用本实现方式,不仅能够准确的确定文本中包含重要信息的词汇,还能够减少计算量,节省文本匹配占用的开销。
一种可选的设计中,所述根据所述第一文本的K个词向量和所述第二文本的K个词向量计算所述词向量匹配距离包括:
根据所述第一文本的K个词向量和所述第一文本的K个词汇字符串中每个词汇字符串的权重,以及所述第二文本的K个词向量,计算所述第一文本与所述第二文本的词向量匹配距离,其中,所述权重用于表示词汇字符串的重要性。
由此可见,采用本实现方式,将第一文本与第二文本中词的含义,以及词的重要性,均作为匹配的参数,从而保证匹配计算的信息全面完整,进而提高文本匹配的准确性。
一种可选的设计中,所述根据所述第一文本的K个词向量和所述第一文本的K个词汇字符串中每个词汇字符串的权重,以及所述第二文本的K个词向量,计算所述第一文本与所述第二文本的词向量匹配距离包括:
确定所述第二文本的K个词向量中与所述第一文本的K个词向量中每个词向量最接近的词向量;
计算所述第一文本的K个词向量中每个词向量与相应最接近的词向量的距离;
根据所述第一文本的K个词向量中每个词向量与相应最接近的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算所述第一文本与所述第二文本的词向量匹配距离。
其中,两个词向量的距离即两个词汇字符串之间的距离,也可以描述为词汇字符串到文本的距离。采用本实现方式,从词汇的含义以及词汇的重要性角度,计算第一文本与第二文本之间的距离,能够将词汇所表示的含义及对文本含义的导向性,考虑到匹配计算中,从而能够提高文本匹配的准确性。
一种可选的设计中,所述根据所述第一文本的K个词向量中每个词向量与相应最接近的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算所述第一文本与所述第二文本的词向量匹配距离,包括:
计算所述第一文本的K个词汇字符串中每个词汇字符串对应的距离和权重乘积的加权平均值,将所述加权平均值确定为所述词向量匹配距离。
本申请实施例的目的是,查找与第一文本最匹配的问题文本,所以,第一文本到第二文本的方向重要性更高。基于此,采用本实现方式,能够直接获取第一文本到第二文本的方向的距离。
一种可选的设计中,所述根据所述第一文本的K个词向量中每个词向量与相应最接近的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算所述第一文本与所述第二文本的词向量匹配距离,包括:
计算所述第一文本的K个词汇字符串中每个词汇字符串对应的距离和权重乘积的加权平均值,作为第一结果值;
计算所述第二文本的K个词汇字符串中每个词汇字符串对应的距离,和所述第二文本中词汇字符串权重乘积的加权平均值,作为第二结果值;
计算所述第一结果值和所述第二结果值的加权值作为所述词向量匹配距离,其中,所述第一结果值的重要性高于所述第二结果值的重要性。
其中,虽然第一文本到第二文本方向的重要性更高,但是仅考虑该一个方向,所涉及的信息不够全面,从而可能会遗漏掉部分信息,进而降低词向量匹配距离的准确性,因此,将第二文本到第一文本方向上的参数,作为计算词向量匹配距离的参数,能够考虑到两个方向的信息,从而保证得到的词向量匹配距离更加准确。
一种可选的设计中,所述根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离,包括:
计算所述词向量匹配距离和所述句向量匹配距离的加权值,得到所述含义匹配距离。
其中,词向量匹配距离用于表示词汇方面两文本的距离,句向量匹配距离用于表示整句方面两文本的距离,因此,作为词向量匹配距离和句向量匹配距离加权值的含义匹配距离,能够从词汇角度和整句角度表达两文本的距离。由于含义匹配距离涵盖的信息全面,从而能够保证所表达的匹配度较为准确。
一种可选的设计中,在获取第一文本和第二文本之前,所述方法还包括:
接收语料文本,所述语料文本包括常用语料文本和预设领域的专业语料文本;
确定所述语料文本所包含的词汇字符串,得到词汇字符串集;
根据所述词汇字符串集中每种词汇字符串在所述常用语料文本中出现的频率,计算相应词汇字符串权重。
一种可选的设计中,所述词汇字符串集中每个词汇字符串的权重I(s)满足:
其中,s是指所述词汇字符串集中任一词汇字符串,ns是指词汇字符串s在所述常用语料文本中出现的总数量,ε是指初始参数,N是指所述常用语料文本中词汇字符串的总数量,P(s)是指词汇字符串s在所述常用语料文本中出现的频率。
其中,语料文本作为语料素材库,能够相对准确的展示常用语料的数量级和专业语料的数量级相差的比例,而通常在常用语料文本中出现频率越高的词汇,在文本中的重要性越低,反之,在常用语料文本中出现频率越低的词汇,可以认为在文本中的重要性越高。
基于此,采用本实现方式,通过词汇字符串在常用语料文本中出现的频率,为每个词汇字符串设置权重,从而为每个词汇字符串确定了重要性系数,进而,在执行根本匹配时,能够将词汇的重要性作为匹配的参数之一,提高匹配的准确性。
一种可选的设计中,在计算所述词汇字符串集中每个词汇字符串的权重之后,还包括:
复制所述专业语料文本,使所述专业语料文本总字数的数量级与所述常用语料文本总字数的数量级相同,得到语料库;
根据所述语料库中的语料训练句向量模型和词向量模型。
其中,根据上述描述可知,词向量模型和句向量模型在整个文本匹配的过程中,起到关键性作用,然而,常用的句向量模型和词向量模型,均根据常用的语料训练得到,用作训练的语料素材中,没有专业领域的词汇,即使有,专业领域的词汇数量较少,不足以用于训练句向量模型和词向量模型。
基于此,本申请实施例通过复制专业语料文本,使专业语料文本总字数的数量级达到常用语料文本总字数的数量级,使得作为训练素材的专业语料的数量足够多,从而保证训练得到的句向量模型和词向量模型相对更精确,进而,在执行文本匹配时,计算得到的向量表达的含义准确度更高。
第二方面,本申请实施例还提供了一种问题匹配方法,所述方法包括:
接收输入问题;
计算所述输入问题与预设问题集中每个问题的含义匹配距离,所述含义匹配距离根据所述输入问题的词向量与句向量,与所述预设问题集中每个问题的词向量与句向量计算得到;
从所述预设问题集中,选择与所述输入的含义匹配距离最小问题作为目标问题;
向用户显示所述目标问题对应的答案。
其中,本申请实施例执行文本匹配的目的在于,从问题集中选择与输入问题最匹配的问题,并向用户显示相应答案。因此,在接收输入问题之后,将输入问题与预设的问题文本集中每个问题执行匹配操作,分别得到输入问题与每个问题的含义匹配距离,进而,选择最小含义匹配距离对应的问题作为目标问题,并显示目标问题的答案。具体的,输入问题与预设的问题文本集中每个问题执行匹配操作的过程,如第一方面或第一方面各种可能的实现方式所述。
采用本实现方式,由于输入问题与每个问题的含义匹配距离,均是通过输入问题句向量和词向量,以及每个问题的句向量和词向量得到,并且,输入问题与每个问题的每个词汇字符串的权重,也作为计算参数,因此,含义匹配距离能够较为精确的表现输入问题与问题集中每个问题的匹配程度,从而使得获取到的答案与输入问题匹配度较高,进而能够提高用户的使用体验。
第三方面,本申请实施例提供了一种文本匹配装置,该装置包括用于执行第一方面及第一方面各实现方式的中方法步骤的模块。
第四方面,本申请实施例还提供了一种问题匹配装置,包括用于执行第二方面中方法步骤的模块。
第五方面,本申请实施例提供了一种文本匹配设备,包括收发器,处理器以及存储器。其中,收发器、处理器以及所述存储器之间可以通过总线系统相连。该存储器用于存储程序、指令或代码,所述处理器用于执行所述存储器中的程序、指令或代码,完成第一方面,或第一方面的任意一种可能的设计中的方法。
第六方面,本申请实施例提供了一种问题匹配设备,包括收发器,处理器以及存储器。其中,收发器、处理器以及所述存储器之间可以通过总线系统相连。该存储器用于存储程序、指令或代码,所述处理器用于执行所述存储器中的程序、指令或代码,完成第二方面可能的设计中的方法。
第七方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面、第二方面或第一方面任意可能的设计中的方法。
为了解决现有匹配方法匹配准确度低的问题,本申请实施例中,智能问答系统在对第一文本和第二文本执行匹配时,根据第一文本的句向量和词向量以及第二文本的句向量和词向量计算第一文本和第二文本的含义匹配距离,其中,含义匹配距离用于指示第一文本与第二文本的含义匹配程度。由于词向量能够表示文本中词汇的含义,句向量能够表示文本整句的含义,因此,含义匹配距离能够体现出第一文本和第二文本词汇含义的匹配程度和整句含义的匹配程度。由此可见,本申请实施例的文本匹配方法,综合文本中各个词汇的含义以及文本整句的含义,确定两文本的匹配程度,使得匹配计算的信息全面完整,从而能够提高文本匹配的准确度,提高用户的使用体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是智能问答系统的系统结构示意图;
图2是本申请实施例提供的文本匹配方法的方法流程图;
图3是本申请实施例提供的计算含义匹配距离的方法流程图;
图4是本申请实施例提供的问题匹配方法的方法流程图;
图5是本申请实施例提供的应用本方案的实施例的方法流程图;
图6是本申请实施例提供的文本匹配装置的结构示意图;
图7是本申请实施例提供的文本匹配设备的结构示意图;
图8是本申请实施例提供的问题匹配装置的结构示意图;
图9是本申请实施例提供的问题匹配设备的结构示意图。
具体实施方式
本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
为了节省人力成本,提高客户服务的效率,智能问答系统应运而生,并且广泛应用在通信、银行和医疗等行业。参见图1,图1是智能问答系统的系统结构示意图,其中,智能问答系统通常包括终端和服务器。通常,各业务领域会将用户提问频率较高的问题整理形成问题库,并将该问题库与其中每个问题对应的答案,存储在服务器中。当用户在终端输入想要提问的问题之后,终端可以输入问题发送到服务器,服务器接收到输入问题之后,从问题库中匹配与输入问题最接近的问题,作为目标问题,进而,将目标问题对应的答案发送到终端,终端向用户显示该答案。
需要指出的,服务器可以内置在终端设备内部,或者独立于终端设备,或者是云服务器。
其中,常用的文本匹配方法包括:基于文本搜索的匹配方法和句向量模型匹配方法。
基于文本搜索的匹配方法包括:提取输入问题文本中的全部关键词字符串,遍历问题库中各问题文本所包含字符串,将问题库中包含关键词字符串最多的问题文本,确定为与输入问题文本最匹配的问题文本。
其中,第一点:由于同一种含义的表达可以使用不同的字符串,例如“什么价位”,“怎么收费”,“多少钱”和“资费是怎样的”,所表达的是同一种含义,但是分别是四个完全不同的字符串,所以,仅通过字符串是否相同确定匹配的问题文本,无法识别表达相同或者相似含义的其他字符串;第二点,输入问题文本中的全部关键词字符串,不一定能够完整准确的表达输入问题文本的含义;第三点,通常,一段文本中不同字符串的含义的重要性不同,例如文本“可以介绍一下4G飞享套餐有什么额外收费吗?”,其中“4G飞享套餐”作为该文本中被介绍的主体,重要性很高,“额外收费”作为该文本中被介绍的结果,重要性也很高,“介绍”与该文本的主体和结果关系均不大,所以,重要性偏低。而基于文本搜索的方法,并不识别每个关键词字符串的含义的重要性。根据以上三点,基于文本搜索的文本匹配方法,匹配的准确度较低。
句向量模型是通过计算文本的句向量,表达文本整句含义的模型。基于此,根据句向量模型执行文本匹配包括:计算输入问题文本的句向量,遍历问题库中各问题文本的句向量,将句向量与输入问题文本的句向量最接近的问题文本,确定为与输入问题文本最匹配的问题文本。
虽然句向量模型能够考虑文本整句的含义,但是同样不考虑文本中不同字符串的含义的重要性,例如结合上述例句,句向量很难体现出“4G飞享套餐”的重要性。从而忽略部分字符串对文本含义的导向,使得计算得到的句向量不能准确的表达文本的含义,进而导致匹配的精确度同样较低。
综上,由于常用的文本匹配方法,均对文本中字符串的含义考虑的不够完善,造成获取到的文本的含义不准确,从而均会导致匹配的精确度较低。有鉴于此,本申请提出了本申请实施例的技术方案。
下面结合附图,对本申请实施例进行描述。
参见图2,图2是本申请实施例提供的文本匹配方法的方法流程图,图2所示的方法100在执行文本匹配时,综合文本中各个词汇的含义以及文本整句的含义,确定两文本的匹配程度,能够提高文本匹配的准确度。所述方法100包括以下步骤:
步骤S101,获取第一文本和第二文本。
其中,本申请实施例中第一文本和第二文本执行匹配,结合本申请实施例的技术场景,第一文本可以是用户输入的问题文本,第二文本可以是预设的问题文本集中选择的问题文本。
需要指出的,本申请实施例中,文本可以是任意语言文字,第一文本和第二文本使用相同的语言文字,例如第一文本和第二文本均是中文,在另一种实施方式中,第一文本和第二文本均是英文。
步骤S102,根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离。
其中,含义匹配距离用于指示第一文本和第二文本的含义匹配程度。
由于词向量用于表示文本中词汇的含义,句向量用于表示文本整句的含义,因此,根据第一文本的句向量和词向量以及第二文本的句向量和词向量计算得到的含义匹配距离,能够体现出第一文本和第二文本的词汇含义的匹配程度,以及第一文本和第二文本整句含义的匹配程度。由此可见,本申请实施例的匹配方法,综合第一文本和第二文本词汇含义和整句含义的匹配程度,确定二者的匹配程度,能够将词汇含义作为文本匹配的一项信息,从而能够提高文本匹配的准确度。
进一步的,含义匹配距离根据第一文本和第二文本的词向量匹配距离,以及第一文本和第二文本的句向量匹配距离计算得到。参见图3,图3示出的是计算含义匹配距离的方法,该方法包括以下步骤:
步骤S1021,分别确定出所述第一文本的K个词向量和所述第二文本的K个词向量。
其中,第一文本和第二文本的词向量匹配距离根据第一文本的K个词向量和第二文本的K个词向量计算得到,K是正整数。
具体的,首先可以确定第一文本包含的L个词汇字符串,以及第二文本包含的M个词汇字符串,进而,从L个词汇字符串中确定第一文本的K个词汇字符串,从M个词汇字符串中确定第二文本的K个词汇字符串。其中,L和M均是大于K的整数,词汇字符串是指一个完整词汇对应的字符串。
其中,以中文文本为例,一段语句中通常包含“的”,“了”,“什么”等停用词,而由于停用词出现的频率非常高,对语句含义的影响很小,所以,在执行文本匹配时,即使不考虑这类词汇的含义,匹配准确度也不会受到影响。基于此,本申请实施例中,K个词汇字符串仅包括文本中所包含的关键词字符串。
例如,第一文本是“4G飞享套餐的资费是怎样的”,包含“的”,“是”,“怎样”,“4G飞享套餐”和“资费”5个词汇字符串。其中“的”,“是”,和“怎样”是停用词,对文本匹配的影响极小,所以,可以仅将“4G飞享套餐”和“资费”2个词汇字符串作为匹配用的字符串。
应理解,本申请实施例可以通过对文本分词的方式,得到文本所包含的词汇字符串。由于分词的模型基于大量文本进行机器学习得到,而在机器学习过程中,每个词汇字符串出现的频率都会被记录下来,基于此,出现频率足够高的词汇字符串可以直接被当做停用词。
此外,智能问答系统所应用的业务领域,通常对应存在一些领域专用词,例如本申请的一个可选业务领域是通信领域,“4G飞享套餐”是通信领域的领域专用词。若第一文本和/或第二文本中包括领域专用词,该领域专用词的含义对相应文本的影响很大。然而,由于常用的分词算法基于常用的语料文本训练,所以,无法精确的识别出文本中的领域专用词,并且,还会按照常规的执行逻辑将领域专用词分词,得到多个词汇字符串,从而直接导致后续匹配计算出现错误。
有鉴于此,本申请实施例预先设置常用语料文本和专业语料文本,并将在专业语料文本中出现的频率大于第一预设值,在常用语料文本中出现的频率小于第二预设值的词汇字符串,作为专业词汇字符串,得到专业词汇字符串集。智能问答系统可以从专业词汇字符串集中查找相应文本包含且未识别出的专业词汇字符串,从而将领域专用词添加到相应文本应该包含的词汇中,进而能够全面准确的确定相应文本中所包含的词汇,为文本匹配提供精确完善的参数。其中,第一预设值大于第二预设值,在本申请的一个可选示例中,第一预设值是60%,第二预设值是20%。
以确定第一文本的K个词汇字符串为例,智能问答系统对第一文本执行分词,得到N个词汇字符串,然后,可以遍历专业词汇字符串集,判断第一文本中是否包含专业词汇字符串。如果第一文本中包含专业词汇字符串,确定所述N个词汇字符串中是否包含相应的专业词汇字符串,若所述N个词汇字符串中不包含相应的专业词汇字符串,则将该专业词汇字符串确定为所述第一文本包含的词汇字符串中,最终得到K个词汇字符串。其中,N是小于或者等于K的整数。
例如,第一文本中包括字符串“4G飞享套餐”,智能问答系统将“4G飞享套餐”分词得到“4G”,“飞享”和“套餐”三个词汇字符串,然后,智能问答系统在遍历预设的专业词汇字符串集时,读取到专业词汇字符串“4G飞享套餐”。由于第一文本中包含该字符串,但分词得到的词汇字符串集中,不包含专业词汇字符串“4G飞享套餐”,将专业词汇字符串“4G飞享套餐”添加到第一文本对应的词汇字符串集中。
接上述,计算第一文本的K个词汇字符串中每个词汇字符串的词向量,得到第一文本的K个词向量,计算第二文本的K个词汇字符串中每个词汇字符串的词向量,得到第二文本的K个词向量。由于使用词向量模型计算字符串的词向量,是本领域普通技术人员所熟知的技术,本申请实施例不再赘述。
步骤S1022,根据所述第一文本的K个词向量和所述第二文本的K个词向量计算词向量匹配距离。
在得到第一文本的K个词向量和第二文本的K个词向量之后,可以根据第一文本的K个词向量和第一文本的K个词汇字符串中每个词汇字符串的权重,以及第二文本的K个词向量,计算第一文本与第二文本的词向量匹配距离。其中,权重用于表示词汇字符串的重要性。计算得到权重的实施方式,详见后文描述。
具体的,首先,确定第二文本的K个词向量中与第一文本的K个词向量中每个词向量最接近的词向量。
例如,第一文本是“办理4G飞享套餐多少钱”,包含“办理”,“4G飞享套餐”和“多少钱”三个词汇字符串,三个词汇字符串分别对应三个词向量。第二文本例如是“订购4G飞享套餐的资费”,包含“订购”,“4G飞享套餐”和“资费”三个字符串,该三个词汇字符串分别对应三个词向量。其中,“订购”的词向量与“办理”的词向量最接近,“4G飞享套餐”的词向量与“4G飞享套餐”的词向量最接近,“多少钱”的词向量与“资费”的词向量最接近。
然后,计算第一文本的K个词向量中每个词向量与相应最接近的词向量的距离。
其中,两个词向量的距离即两个词汇字符串之间的距离,也可以描述为词汇字符串到文本的距离。具体的,可以计算相应两个词向量的余弦距离,对应相应两个词向量之间的夹角,或者也可以计算欧几里德距离。
以一种可选的计算方式计算,第一文本的K个词向量中每个词向量与相应最接近的词向量的距离,也即词汇字符串w到第二文本的距离δ(w,q')满足:
δ(w,q')=minw'∈τ(q')(δ(w,w')),其中,w是指所述第一文本的K个词汇字符串中的任一词汇字符串,q'是指所述第二文本,τ(q')是指所述第二文本所包含的词汇字符串集,w'是指所述第二文本的K个词汇字符串中的任一词汇字符串。
接上述,根据第一文本的K个词向量中每个词向量与相应最接近的词向量距离,与第一文本的K个词汇字符串中每个词汇字符串的权重,计算第一文本与第二文本的词向量匹配距离。
其中,本申请实施例提供了两种计算词向量匹配距离的方式,具体如下:
方式一:计算第一文本的K个词汇字符串对应的距离和权重乘积的加权平均值,并将该加权平均值确定为所述词向量匹配距离。
在本申请的一种可选示例中,第一文本到第二文本方向上,K个词汇字符串对应的距离以及权重乘积的加权平均值δ(q,q')满足:其中,I(w)是指词汇字符串w的权重,τ(q)是指所述第一文本的K个词汇字符串。
方式二:计算第一文本的K个词汇字符串对应的距离以及权重乘积的加权平均值,得到第一结果值,计算第二文本的K个词汇字符串中每个词汇字符串对应的距离,和第二文本中词汇字符串权重乘积的加权平均值,作为第二结果值,取第一结果值和第二结果值的加权值作为所述词向量匹配距离。其中,第二结果值的计算方法与第一结果值的计算方法类似,可参照方式一的公式,本申请实施例此处不再详述。
应理解,在计算两文本的距离时,基于不同的方向,两文本的参数在距离函数中的位置不同。相应的,第一文本到第二文本方向上的距离计算时,与第二文本到第一文本方向上的距离计算时,第一文本和第二文本的参数在距离函数中的位置互相交换,因此,得到的距离结果也不同。即第一结果值δ(q,q')不等于第二结果值δ(q',q)。
基于上述描述,本申请实施例的目的是,查找与第一文本最匹配的问题文本,所以,第一文本到第二文本的方向重要性更高。基于此,计算第一结果值和第二结果值的加权值时,第一结果值的重要性高于第二结果值的重要性。
具体的,词向量匹配距离d1(q,q')满足:
d1(q,q')=a1δ(q,q')+a2δ(q',q),其中,q是指所述第一文本,δ(q,q')是指所述第一文本到所述第二文本方向上的距离,δ(q',q)是指所述第二文本到所述第一文本方向上的距离,a1是指所述第一文本到所述第二文本方向的权重系数,a2是指所述第二文本到所述第一文本方向的权重系数,其中,a1和a2均大于0,a1大于a2
由于词向量指示的是词汇字符串的含义,词汇字符串的权重指示的是相应词汇字符串的重要性,因此,词向量匹配距离能够从词汇字符串的含义,以及词汇字符串的重要性两个角度,表示第一文本与第二文本之间词汇之间的距离。
步骤S1023,根据所述词向量匹配距离和句向量匹配距离,计算出所述含义匹配距离。
其中,第一文本和第二文本的句向量匹配距离,根据第一文本的句向量和第二文本的句向量计算得到。具体的,同样可以计算相应两个句向量的余弦距离,对应相应两个句向量之间的夹角,或者也可以计算欧几里德距离,本申请实施例此处不再详述。
第一文本与第二文本的含义匹配距离,是词向量匹配距离和句向量匹配距离的加权值。进一步的,由于词向量匹配距离指示第一文本与第二文本的词的距离,句向量匹配距离指示第一文本与第二文本的句的距离,若匹配时,结合相应业务领域,词或句中某一方含义的重要性更大,在计算含义匹配距离时,可以通过为词向量匹配距离和句向量匹配距离设置加权值的方式,表现二者的重要性。
具体的,所述含义匹配距离d(q,q')满足:d(q,q')=c1d1(q,q')+c2d2(q,q'),其中,d2(q,q')是指所述句向量匹配距离,c1是指所述词向量匹配距离的权重系数,c2是指所述句向量匹配距离的权重系数,c1和c2均大于0。
至此,第一文本与第二文本完成匹配。
由此可见,本申请实施例的文本匹配方法,将第一文本与第二文本中词的含义,句的含义,以及词的重要性,均作为匹配的参数,从而保证匹配计算的信息全面完整,进而提高文本匹配的准确性,提高用户的使用体验。
根据对方法100的描述可知,词的权重,词向量模型和句向量模型在整个文本匹配的过程中,起到关键性作用。然而,一方面,现有的方案中,并不包括词汇的权重这一参数,并且,也未提出计算词汇权重的方法;另一方面,常用的句向量模型和词向量模型,均根据常用的语料训练得到,用作训练的语料素材中,没有专业领域的词汇,即使有,专业领域的词汇数量较少,不足以用于训练句向量模型和词向量模型。基于此,涉及到专业领域的文本,使用常用的句向量模型和词向量模型计算得到的向量,准确度相对较差,并且,没有词汇权重这一参数,依旧无法考虑词汇在文本中的重要性,从而依然会降低文本匹配的准确性。
有鉴于此,为了进一步优化本方案,在执行方法100之前,本申请实施例还包括以下准备工作。
技术人员将常用语料文本和预设领域的专业语料文本输入智能问答系统中,其中,常用语料文本是指常用语料的文章等素材,例如是百科全书,专业语料文本是指应用智能问答系统的业务领域的文章素材,例如是相应的技术论文。
智能问答系统接收到常用语料文本和专业语料文本之后,确定常用语料文本包含的词汇字符串,和专业语料文本包含的词汇字符串,得到词汇字符串集。
具体的,由于常用语料文本所包含的词汇字符串,经常被作为素材,因此,本申请实施例中,智能问答系统可以直接通过网络获取常用语料文本所包含的词汇字符串。由于专业语料文本中包含很多领域专用词,例如通信领域的领域专用词“4G飞享套餐”,为了能够正确识别该类领域专用词,本申请实施例中,智能问答系统可以统计专业语料文本所包含的词汇字符串,分别在专业语料文本和常用语料文本中出现的频率,如果该字符串在专业语料文本中出现的频率大于第一预设值,并且在常用语料文本中的频率小于第二预设值,那这个词汇字符串可以作为一个专业词汇字符串,得到专业词汇字符串集。其中,本申请实施例中,第一预设值大于第二预设值。
此外,本申请实施例可以按照计算词汇字符串出现的相对频率,其中,c(w1)是指词汇字符串w1出现的次数,c(w2)是指词汇字符串w2出现的次数,c(w1w2)表示词汇字符串w1和词汇字符串w2按照w1w2组合的形式出现的次数。即,如果w1和w2经常以w1w2组合出现,那么,将w1w2组合作为是一个词。
进一步的,智能问答系统可以基于常用语料文本,计算每个词汇字符串的权重。具体的,可以以词汇字符串在常用语料文本中出现的频率,计算该词汇字符串的权重。基于此,可以计算常用语料文本中词汇字符串的总数量,根据每种词汇字符串的总数量计算该词汇字符串在常用语料文本中出现的频率,进而,根据频率计算得到该词汇字符串的权重。
其中,词汇字符串集中每个词汇字符串的权重I(s)满足:其中,s是指所述词汇字符串集中任一词汇字符串,ns是指词汇字符串s在所述常用语料文本中出现的总数量,ε是指初始参数,N是指所述常用语料文本中词汇字符串的总数量,P(s)是指词汇字符串s在所述常用语料文本中出现的频率。
由于本申请实施例中,语料文本作为语料素材库,能够相对准确的展示常用语料的数量级和专业语料的数量级相差的比例,而通常在常用语料文本中出现频率越高的词汇,在文本中的重要性越低,例如词汇“的”和词汇“了”,在常用语料文本中出现的频率较高,那么,词汇“的”和词汇“了”对文本含义基本上没有影响,重要性很低。反之,在常用语料文本中出现频率越低的词汇,可以认为在文本中的重要性越高。
基于此,本申请实施例通过词汇字符串的出现频率,为每个词汇字符串设置权重,从而为每个词汇字符串确定了重要性系数,进而,在执行根本匹配时,能够将词汇的重要性作为匹配的参数之一,提高匹配的准确性。
进一步的,在计算得到每个词汇字符串的权重之后,智能问答系统复制专业语料文本,使专业语料文本总字数的数量级达到常用语料文本总字数的数量级,得到语料库,进而,根据语料库中的语料训练句向量模型和词向量模型。
在本申请的一个可选示例中,专业语料文本的总字数例如是30万,常用语料文本的总字数例如是500万,则复制专业语料文本,使其总字数达到500万。当然,也可以使专业语料文本总字数达到400万或者600万,保证专业语料文本总字数与常用语料文本总字数相似即可。
其中,使专业语料文本总字数的数量级达到常用语料文本总字数的数量级,才能够保证作为训练素材的专业语料的数量足够多,从而保证训练得到的句向量模型和词向量模型相对更精确,进而,在执行文本匹配时,计算得到的向量表达的含义准确度更高。
由此可见,本申请实施例通过为词汇字符串设置权重,能够体现不同词汇字符串的重要性,从而能够引导文本的含义更加准确。此外,通过加入专业语料文本作为素材,训练词向量模型和句向量模型,使得词向量模型和句向量模型更加精准,计算得到的向量所体现的含义也更加准确,进而,提高匹配的准确性。
其中,本申请实施例执行文本匹配的目的在于,从问题集中选择与输入问题最匹配的问题,并向用户显示相应答案,因此,在上述实施例的基础上,本申请实施例还提供了一种问题匹配方法。参见图4,图4是本申请实施例提供的问题匹配方法的方法流程图,图4所示的方法200包括如下步骤:
步骤S201,接收输入问题。
步骤S202,计算所述输入问题与预设问题集中每个问题的含义匹配距离。
其中,输入问题与问题集中每个问题的含义匹配距离,通过方法100中得到,详细过程参见方法100的内容,本申请实施例不再重复。
步骤S203,从所述预设问题集中,选择与所述输入问题的含义匹配距离最小的问题文本作为目标问题。
由于含义匹配距离是词含义和句含义的综合,因此,含义匹配距离越小,说明输入问题与问题集中相应问题的含义越接近。基于此,在得到输入问题与问题集中全部问题的含义匹配距离之后,将最小含义匹配距离对应的问题,作为目标问题。
步骤S204,向用户显示所述目标问题对应的答案。
具体的,在确定目标问题之后,获取所述目标问题对应的答案,并在界面上显示相应答案。
此外,需要指出的是,智能问答系统可以按照含义匹配距离由小到大的顺序,将多个问题作为目标问题,并按含义匹配距离由小到大的顺序,显示该多个目标问题对应答案。当然,所确定的目标问题的数量可以按照可接受的最大含义匹配距离确定,而可接受的最大含义匹配距离可以根据实际应用配置,本申请实施例不限制。
采用本实现方式,由于输入问题与每个问题的含义匹配距离,均是通过输入问题句向量和词向量,以及每个问题的句向量和词向量得到,并且,输入问题与每个问题的每个词汇字符串的权重,也作为计算参数,因此,含义匹配距离能够较为精确的表现输入问题与问题集中每个问题的匹配程度,从而使得获取到的答案与输入问题匹配度较高,进而能够提高用户的使用体验。
为了使本领域技术人员更加清楚详细的了解本方案,下面结合具体案例对本申请实施例进行描述。
其中,本实施例的实施场景例如是通信领域,参见图5,图5所示的方法300包括如下步骤:
步骤S301,准备工作。
相关技术人员将FAQ整理得到的问题库,常用语料文本例如是百科全书,以及,通信领域的专业语料文本例如是通信领域的技术论文,输入智能问答系统。智能问答系统识别常用语料文本和专业语料文本中所包含的全部词汇字符串。
进一步的,计算每个词汇字符串在常用语料中的总数量,例如词汇字符串“路由器”在常用语料中的总数量是100个,词汇字符串“4G飞享套餐”的总数量是0,词汇字符串“怎样”在常用语料中的总数量是1万。然后,按照公式分别计算每个词汇字符串的权重。
以常用语料文本所包含的字符串总数量是1亿为例,词汇字符串“4G飞享套餐”的权重I(4G飞享套餐)满足:
词汇字符串“路由器”的权重I(路由器)满足:
词汇字符串“怎样”的权重I(怎样)满足:
在本实施例中,专业语料文本的总字数例如是10万,常用语料文本的总字数例如是800万,复制专业语料文本,使专业语料文本的总字数达到800万,得到最终的语料库,进而,根据最终的语料库的语料训练句向量模型和词向量模型。其中,根据语料训练句向量模型和词向量模型是本领域技术人员所熟知的技术,本实施例此处不再详述。
步骤S302,确定用户输入的问题文本和待匹配问题文本所包含的词汇字符串。
输入问题文本例如是“办理4G飞享套餐怎样收费”,对输入问题文本“办理4G飞享套餐怎样收费”执行分词,例如得到“办理”,“4G”,“飞享”,“套餐”和“怎样收费”5个词汇字符串。
然后,可以采用前缀树之类的方法,判断专业语料文本所包含的词汇字符串中,是否有与问题文本“办理4G飞享套餐怎样收费”的连续字符串相同的词汇字符串。在本实施例中,专业语料文本所包含的词汇字符串中有词汇字符串“4G飞享套餐”。由于词汇字符串“4G飞享套餐”不包含在上述5个词汇字符串中,所以将词汇字符串“4G飞享套餐”添加到“办理4G飞享套餐怎样收费”所包含的词汇字符串中,确定“办理4G飞享套餐怎样收费”共包含的6个词汇字符串。
在另一种实施场景中,若对“办理4G飞享套餐怎样收费”执行分词,得到“办理”,“4G飞享套餐”,“怎样收费”和3个词汇字符串,由于词汇字符串“4G飞享套餐”已经包含在分词得到的词汇字符串中,所以,即使检测到词汇字符串“4G飞享套餐”是专业语料文本所包含的词汇字符串,并且是问题文本“办理4G飞享套餐怎样收费”中的连续字符串,也无需再将词汇字符串“4G飞享套餐”添加到问题文本“办理4G飞享套餐怎样收费”所包含的词汇字符串中。
从问题库中确定一个待匹配问题文本,例如是“订购4G飞享套餐多少钱”,按照类似的过程确定“订购4G飞享套餐多少钱”所包含的词汇字符串。
步骤S303,计算词向量和句向量。
按照步骤S301中得到的词向量模型分别计算步骤S302中得到的词汇字符串的词向量,并根据步骤S301中得到的句向量模型计算“办理4G飞享套餐怎样收费”和“订购4G飞享套餐多少钱”的句向量。
步骤S304,计算词汇字符串之间的距离。
以“办理4G飞享套餐怎样收费”的6个词汇字符串中的部分字符串为例,“办理”的词向量与“订购”的词向量最接近,“怎样收费”的词向量与“多少钱”的词向量最接近,“4G飞享套餐”的词向量与“4G飞享套餐”的词向量最接近。
按照公式δ(w,q')=minw'∈τ(q')(δ(w,w'))分别计算“办理4G飞享套餐怎样收费”的6个词汇字符串中每个词汇字符串,与其在上述过程中确定的词向量最接近的词汇字符串的距离,得到6个距离。其中,w是指“办理4G飞享套餐怎样收费”的6个词汇字符串中的任一词汇字符串,q'是指待匹配问题文本“订购4G飞享套餐多少钱”,τ(q')是指“订购4G飞享套餐多少钱”所包含的词汇字符串集,w'是指“订购4G飞享套餐多少钱”中的任一词汇字符串,δ(w,w')是指词汇字符串w和词汇字符串w'之间的距离。
步骤S305,计算词向量匹配距离。
获取6个词汇字符串的权重,并结合6个词汇字符串的权重和6个距离,计算“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”的词向量匹配距离d1(q,q')。其中,词向量匹配距离d1(q,q')满足:d1(q,q')=a1δ(q,q')+a2δ(q',q),其中,q是指“办理4G飞享套餐怎样收费”,δ(q,q')是指“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”方向上的距离,δ(q',q)是指“订购4G飞享套餐多少钱”到“办理4G飞享套餐怎样收费”方向上的距离,a1是指“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”方向的权重系数,例如是0.6,a2是指“订购4G飞享套餐多少钱”到“办理4G飞享套餐怎样收费”方向的权重系数,例如是0.4。
以“办理4G飞享套餐怎样收费”包含“办理”,“4G飞享套餐”和“怎样收费”为例,δ(q,q')满足:
相应的,δ(q',q)满足:
其中,各个词汇字符串的距离是“订购4G飞享套餐多少钱”到“办理4G飞享套餐怎样收费”方向上的距离,计算方法与“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”方向上相似,本实施例不再赘述。
步骤S306,计算句向量匹配距离。
根据步骤S303中得到的“办理4G飞享套餐怎样收费”的句向量,和“订购4G飞享套餐多少钱”的句向量,计算“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”的句向量匹配距离。具体的,计算两个句向量之间的距离,是本领域技术人员所熟知的技术,本实施例此处不再详述。
步骤S307,计算含义匹配距离。
其中,“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”的含义匹配距离d(q,q')满足:d(q,q')=c1d1(q,q')+c2d2(q,q'),其中,c1是指词向量匹配距离的权重系数,例如是0.7,c2是指句向量匹配距离的权重系数,例如是0.3。
至此,完成了“办理4G飞享套餐怎样收费”与“订购4G飞享套餐多少钱”的匹配。
步骤S308,判断输入问题文本是否与问题库中的每个问题文本均已匹配,若否,执行步骤S309,确定未与输入匹配的问题文本,作为新的待匹配问题文本,并触发步骤S304;若是,执行步骤S310。
其中,当输入问题文本与问题库中的每个问题文本匹配后,才能够根据匹配结果确定目标文本,因此,可以判断输入问题文本是否与问题库中的文本全部匹配。具体的,可以根据问题文本是否已经有对应的含义匹配距离,确定该问题文本是否与输入问题文本执行匹配,若无,说明未与输入问题文本执行匹配,则将相应的问题文本确定为新的待匹配问题文本,并按照步骤S304至步骤S307执行匹配。
步骤S310,选择最小含义匹配距离对应的问题文本作为目标文本,并显示目标文本对应的答案。
当“办理4G飞享套餐怎样收费”与问题库中每个问题文本均得到一个含义匹配距离后,将最小的含义匹配距离对应的问题文本,确定为目标文本,例如是“订购4G飞享套餐多少钱”,然后,获取并显示“订购4G飞享套餐多少钱”对应的答案。
应理解,上述公式中a1,a2,c1和c2均是用于突出相应参数导向性的系数,例如,a1较a2大,则表示词向量匹配距离中,“办理4G飞享套餐怎样收费”到“订购4G飞享套餐多少钱”方向上的参数,较“订购4G飞享套餐多少钱”到“办理4G飞享套餐怎样收费”方向上的参数,导向性更强。基于此,本申请实施例,可以根据实际业务需求,灵活调整各项系数,本申请实施例对此不做限制。
需要指出的是,待匹配问题文本预先存储在问题文本集中,基于此,可以在接收到输入问题文本之前,预先将问题文本集中每个问题文本分词,并计算相应的词向量和句向量。当接收到输入问题文本之后,可以直接获取相应待匹配问题文本的词向量和句向量。
此外,本领域技术人员应当理解,方法300仅仅是为了便于理解,以通信领域的客户服务场景为例,对本申请实施例实施过程的描述,对本申请实施例不构成限制,且本申请实施例适用于存在相同技术问题的其他任何业务领域。
综合上述,本申请实施例的文本匹配方法,一方面将专业领域的语料引入,作为训练句向量模型和词向量模型的语料,使得所得到的模型更加精确,进而,使得计算得到向量所指示的含义也更准确;另一方面,通过将词向量和权重作为文本匹配的参数,能够在匹配过程中考虑到词的含义以及词的重要性,从而使得匹配计算的信息全面完整,进而,提高文本匹配的准确度。
图6是本申请实施例提供的文本匹配装置的结构示意图。该文本匹配装置600可以用于执行图2和图3所对应的方法,以及图5中关于文本匹配部分的方法。如图6所示,该文本匹配装置600包括获取模块601和计算模块602。该获取模块601具体可以用于执行方法100和方法300中文本的获取;计算模块602具体用于执行上述方法100和方法300中文本匹配相关的计算处理。
例如,该获取模块601可以用于获取第一文本和第二文本。该计算模块602可以用于根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离,所述含义匹配距离用于指示所述第一文本与所述第二文本的含义匹配程度。
具体内容可以参考方法100和方法300中相关部分的描述,此处不再赘述。
应理解,以上各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。本申请实施例中,获取模块601可以由收发器实现,计算块602可以由处理器实现。如图7所示,文本匹配设备700可以包括处理器701、收发器702和存储器703。其中,存储器703可以用于存储文本匹配设备700出厂时预装的程序/代码,也可以存储用于处理器701执行时的代码等。
应理解,根据本申请实施例的文本匹配设备700与本申请实施例的方法100和方法300中实现方法的对应,其中,收发器702用于执行方法100和方法300中第一文本的接收,处理器701用于执行方法100和方法300中文本匹配相关的计算处理。在此不再赘述。
图8是本申请实施例提供的问题匹配装置的结构示意图。该问题匹配装置800可以用于执行图4所对应的问题匹配方法,和图5中关于问题匹配部分的方法。如图8所示,该问题匹配装置800包括接收模块801,计算模块802,选择模块803和显示模块804。该接收模块801具体可以用于执行方法200中输入问题的接收;计算模块802,选择模块803和显示模块804具体用于执行上述方法200中问题匹配相关的处理。
例如,该接收模块801可以用于接收输入问题。该计算模块802可以用于计算所述输入问题与预设问题集中每个问题的含义匹配距离,所述含义匹配距离根据所述输入问题的词向量与句向量,与所述预设问题集中每个问题的词向量与句向量计算得到。该选择模块803可以用于从所述预设问题集中,选择与所述输入问题的含义匹配距离最小问题文本作为目标问题。该显示模块804可以用于向用户显示所述目标问题对应的答案。
具体内容可以参考方法200中相关部分的描述,此处不再赘述。
应理解,以上各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。本申请实施例中,接收模块801可以由收发器实现,计算模块802,选择模块803和显示模块804可以由处理器实现。如图9所示,问题匹配设备900可以包括处理器901、收发器902和存储器903。其中,存储器903可以用于存储问题匹配设备900出厂时预装的程序/代码,也可以存储用于处理器701执行时的代码等。
应理解,根据本申请实施例的问题匹配设备900与本申请实施例的方法200中实现方法的对应,其中,收发器902用于执行方法200中所述输入问题的接收,处理器901用于执行方法200中问题匹配相关的处理。在此不再赘述。
具体实现中,对应文本匹配设备和问题匹配设备,本申请实施例还分别提供一种计算机存储介质,其中,设置在任意设备中计算机存储介质可存储有程序,该程序执行时,可实施包括图2至图5提供的方法的各实施例中的部分或全部步骤。任意设备中的存储介质均可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。
本申请实施例中,收发器可以是有线收发器,无线收发器或其组合。有线收发器例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线收发器例如可以为无线局域网收发器,蜂窝网络收发器或其组合。处理器可以是中央处理器(centralprocessing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(genericarray logic,GAL)或其任意组合。存储器可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volati le memory),例如只读存储器(read-only memory,ROM),快闪存储器(flashmemory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器还可以包括上述种类的存储器的组合。
图7和图9中还可以包括总线接口,总线接口可以包括任意数量的互联的总线和桥,具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线接口还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器提供用于在传输介质上与各种其他设备通信的单元。处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。
本领域技术任何还可以了解到本申请实施例列出的各种说明性逻辑块(illustrative logical block)和步骤(step)可以通过电子硬件、电脑软件,或两者的结合进行实现。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本申请实施例保护的范围。
本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于UE中。可选地,处理器和存储媒介也可以设置于UE中的不同的部件中。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘)等。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例部分的说明即可。
另外,除非有相反的说明,本申请实施例提及“第一”以及“第二”等序数词用于对多个对象进行区分,不用于限定多个对象的顺序。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种文本匹配方法,其特征在于,所述方法包括:
获取第一文本和第二文本;
根据所述第一文本的句向量和所述第二文本的句向量计算句向量匹配距离,以及根据所述第一文本的K个词向量和所述第二文本的K个词向量中相应最接近的词向量的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算词向量匹配距离,所述K个词向量为相应文本中的关键词,K是正整数,且K小于相应文本的词汇字符串的总数量,所述权重用于表示词汇字符串在所述第一文本中的重要性;
根据所述句向量匹配距离和所述词向量匹配距离计算所述第一文本和所述第二文本的含义匹配距离,所述含义匹配距离用于指示所述第一文本与所述第二文本的含义匹配程度。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述根据所述第一文本的K个词向量和所述第二文本的K个词向量中相应最接近的词向量的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算词向量匹配距离包括:
分别确定出所述第一文本的K个词向量和所述第二文本的K个词向量。
3.根据权利要求2所述的文本匹配方法,其特征在于,所述分别确定出所述第一文本和所述第二文本的K个词向量包括:
确定所述第一文本包含的L个词汇字符串,L是大于K的整数;
确定所述第二文本包含的M个词汇字符串,M是大于K的整数;
根据所述L个词汇字符串和所述M个词汇字符串,确定所述第一文本的K个词汇字符串和所述第二文本的K个词汇字符串;
分别计算所述第一文本的K个词汇字符串中每个词汇字符串的词向量,以及所述第二文本的K个词汇字符串中每个词汇字符串的词向量,得到所述第一文本的K个词向量和所述第二文本的K个词向量。
4.根据权利要求1所述的文本匹配方法,其特征在于,所述根据所述第一文本的K个词向量和所述第二文本的K个词向量中相应最接近的词向量的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算词向量匹配距离包括:
确定所述第二文本的K个词向量中与所述第一文本的K个词向量中每个词向量最接近的词向量;
计算所述第一文本的K个词向量中每个词向量与相应最接近的词向量的距离;
根据所述第一文本的K个词向量中每个词向量与相应最接近的词向量的距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算所述第一文本与所述第二文本的词向量匹配距离。
5.根据权利要求4所述的文本匹配方法,其特征在于,所述根据所述第一文本的K个词向量中每个词向量与相应最接近的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算所述第一文本与所述第二文本的词向量匹配距离,包括:
计算所述第一文本的K个词汇字符串中每个词汇字符串对应的距离和权重乘积的加权平均值,将所述加权平均值确定为所述词向量匹配距离。
6.根据权利要求4所述的文本匹配方法,其特征在于,所述根据所述第一文本的K个词向量中每个词向量与相应最接近的词向量距离,与所述第一文本的K个词汇字符串中每个词汇字符串的权重,计算所述第一文本与所述第二文本的词向量匹配距离,包括:
计算所述第一文本的K个词汇字符串中每个词汇字符串对应的距离和权重乘积的加权平均值,作为第一结果值;
计算所述第二文本的K个词汇字符串中每个词汇字符串对应的距离,和所述第二文本中词汇字符串权重乘积的加权平均值,作为第二结果值;
计算所述第一结果值和所述第二结果值的加权值作为所述词向量匹配距离,其中,所述第一结果值的重要性高于所述第二结果值的重要性。
7.根据权利要求1至6中任一项所述的文本匹配方法,其特征在于,所述根据所述句向量匹配距离和所述词向量匹配距离计算所述第一文本和所述第二文本的含义匹配距离,包括:
计算所述词向量匹配距离和所述句向量匹配距离的加权值,得到所述含义匹配距离。
8.根据权利要求1所述的文本匹配方法,其特征在于,在获取第一文本和第二文本之前,所述方法还包括:
接收语料文本,所述语料文本包括常用语料文本和预设领域的专业语料文本;
确定所述语料文本所包含的词汇字符串,得到词汇字符串集;
根据所述词汇字符串集中每种词汇字符串在所述常用语料文本中出现的频率,计算相应词汇字符串权重。
9.根据权利要求8所述的文本匹配方法,其特征在于,所述词汇字符串集中每个词汇字符串的权重I(s)满足:
其中,s是指所述词汇字符串集中任一词汇字符串,ns是指词汇字符串s在所述常用语料文本中出现的总数量,ε是指初始参数,N是指所述常用语料文本中词汇字符串的总数量,P(s)是指词汇字符串s在所述常用语料文本中出现的频率。
10.根据权利要求8或9所述的文本匹配方法,其特征在于,在计算所述词汇字符串集中每个词汇字符串的权重之后,还包括:
复制所述专业语料文本,使所述专业语料文本总字数的数量级与所述常用语料文本总字数的数量级相同,得到语料库;
根据所述语料库中的语料训练句向量模型和词向量模型。
11.一种问题匹配方法,其特征在于,所述方法包括:
接收输入问题;
计算所述输入问题与预设问题集中每个问题的含义匹配距离,所述含义匹配距离为根据所述输入问题与所述预设问题集中每个问题的句向量匹配距离与词向量匹配距离计算得到,其中,所述句向量匹配距离为根据所述输入问题的句向量与所述预设问题集中每个问题的句向量计算得到,所述词向量匹配距离为根据所述输入问题的K个词向量和所述预设问题集中每个问题的K个词向量中相应最接近的词向量的词向量距离,与所述输入问题的K个词汇字符串中每个词汇字符串的权重计算得到,所述K个词向量为相应问题中的关键词,K是正整数,且K小于相应问题的词汇字符串的总数量,所述权重用于表示词汇字符串在所述输入问题中的重要性;
从所述预设问题集中,选择与所述输入的问题之间的含义匹配距离最小的问题作为目标问题;
向用户显示所述目标问题对应的答案。
12.一种文本匹配设备,其特征在于,包括处理器和存储器,其中:
所述存储器,用于存储程序指令;
所述处理器,用于调用并执行所述存储器中存储的程序指令,以使所述文本匹配设备执行权利要求1至10中任一项所述的文本匹配的方法。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得所述计算机执行权利要求1至10中任一项所述的文本匹配的方法。
14.一种问题匹配设备,其特征在于,包括处理器和存储器,其中:
所述存储器,用于存储程序指令;
所述处理器,用于调用并执行所述存储器中存储的程序指令,以使所述问题匹配设备执行权利要求11所述的问题匹配的方法。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得所述计算机执行权利要求11所述的问题匹配的方法。
CN201810274548.3A 2018-03-30 2018-03-30 文本匹配方法、装置及设备 Active CN110555093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810274548.3A CN110555093B (zh) 2018-03-30 2018-03-30 文本匹配方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810274548.3A CN110555093B (zh) 2018-03-30 2018-03-30 文本匹配方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110555093A CN110555093A (zh) 2019-12-10
CN110555093B true CN110555093B (zh) 2024-02-13

Family

ID=68733665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810274548.3A Active CN110555093B (zh) 2018-03-30 2018-03-30 文本匹配方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110555093B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639194B (zh) * 2020-05-29 2023-08-08 天健厚德网络科技(大连)有限公司 基于句向量的知识图谱查询方法及系统
CN114330355A (zh) * 2020-10-09 2022-04-12 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及存储介质
CN113988045B (zh) * 2021-12-28 2022-04-12 浙江口碑网络技术有限公司 文本相似度确定方法、文本处理方法、相应的装置和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN105824797A (zh) * 2015-01-04 2016-08-03 华为技术有限公司 一种评价语义相似度的方法、装置和系统
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467268B2 (en) * 2015-06-02 2019-11-05 International Business Machines Corporation Utilizing word embeddings for term matching in question answering systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824797A (zh) * 2015-01-04 2016-08-03 华为技术有限公司 一种评价语义相似度的方法、装置和系统
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置

Also Published As

Publication number Publication date
CN110555093A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
US11645470B2 (en) Automated testing of dialog systems
CN110019732B (zh) 一种智能问答方法以及相关装置
CN106873799B (zh) 输入方法和装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US20160196258A1 (en) Semantic Similarity Evaluation Method, Apparatus, and System
US20120253783A1 (en) Optimization of natural language processing system based on conditional output quality at risk
CN110555093B (zh) 文本匹配方法、装置及设备
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
US10032448B1 (en) Domain terminology expansion by sensitivity
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN108512883B (zh) 一种信息推送方法、装置及可读介质
CN110717009A (zh) 一种法律咨询报告的生成方法及设备
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN112784066A (zh) 基于知识图谱的信息反馈方法、装置、终端和存储介质
WO2022116438A1 (zh) 客服违规质检方法、装置、计算机设备及存储介质
CN112347758A (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN109871540B (zh) 一种文本相似度的计算方法以及相关设备
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN116204624A (zh) 应答方法、装置、电子设备及存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN111625619A (zh) 查询省略方法、装置、计算机可读介质及电子设备
US11321527B1 (en) Effective classification of data based on curated features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant