CN112613295B - 语料识别方法及装置、电子设备、存储介质 - Google Patents

语料识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112613295B
CN112613295B CN202011523546.7A CN202011523546A CN112613295B CN 112613295 B CN112613295 B CN 112613295B CN 202011523546 A CN202011523546 A CN 202011523546A CN 112613295 B CN112613295 B CN 112613295B
Authority
CN
China
Prior art keywords
feature vector
corpus
word
similarity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011523546.7A
Other languages
English (en)
Other versions
CN112613295A (zh
Inventor
简仁贤
李佳纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202011523546.7A priority Critical patent/CN112613295B/zh
Publication of CN112613295A publication Critical patent/CN112613295A/zh
Application granted granted Critical
Publication of CN112613295B publication Critical patent/CN112613295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供一种语料识别方法及装置、电子设备、存储介质,该方法包括:获取待识别语料;提取待识别语料的语料特征向量;语料特征向量包括:第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量;针对每个业务问题,根据业务问题对应的问题特征向量,计算语料特征向量与问题特征向量之间的特征相似度;问题特征向量包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;选取与语料特征向量之间的特征相似度最高的业务问题作为待识别语料的识别结果。该方案可以减少人力成本,节省计算资源。

Description

语料识别方法及装置、电子设备、存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种语料识别方法及装置、电子设备、计算机可读存储介质。
背景技术
随着互联网及电子商务的普及应用,智能客服也越来越多。智能客服是在大规模知识处理基础上发展起来的一项面向行业的应用,适用于大规模知识处理、自然语言理解、知识管理、自动问答系统、推理等等技术行业,智能客服不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段;同时还能够为企业提供精细化管理所需的统计分析信息。
目前大部分智能客服都是基于大数据知识处理技术的应用,即提前将智能客服需要的数据存储于知识库中,在智能客服工作时,随时去读取知识库中存储的知识。数据即是由大量的“问答对”组成的,问题和对应答案匹配成一组,这些“问答对”来自平时访客和人工客服的交流沟通,或者其它对话场合,然后经人工梳理形成可供智能客服使用的知识库。
要实现智能客服,通常会需要准备大量训练语料,让机器学习模型学会自然语言与业务问题之间的关系,从而确定自然语言匹配的业务问题。但是准备大量训练语料,需耗费大量人力的工作。
发明内容
本申请实施例提供了一种语料识别方法,用以减少人力成本。
本申请实施例提供了一种语料识别方法,所述方法包括:
获取待识别语料;
提取所述待识别语料的语料特征向量;所述语料特征向量包括:第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量;
针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度;所述问题特征向量包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
选取与所述语料特征向量之间的特征相似度最高的业务问题作为所述待识别语料的识别结果。
在一实施例中,所述针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度,包括:
针对每个业务问题,提取所述业务问题对应的第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
计算所述第一词嵌入特征向量与第二词嵌入特征向量之间的第一相似度、所述第一句子嵌入特征向量与第二句子嵌入特征向量之间的第二相似度、所述第一词频特征向量与第二词频特征向量之间的第三相似度;
计算所述第一相似度、所述第二相似度与所述第三相似度之和,得到所述待识别语料的语料特征向量与所述业务问题的问题特征向量之间的特征相似度。
在一实施例中,所述提取所述待识别语料的语料特征向量,包括:
对所述待识别语料进行分词,得到多个词汇;
将每个所述词汇分别作为已训练的词嵌入模型的输入,获得每个所述词汇对应的词嵌入特征;
计算所有词汇对应的词嵌入特征的平均值,得到所述第一词嵌入特征。
在一实施例中,所述将每个所述词汇分别作为已训练的词嵌入模型的输入,获得每个所述词汇对应的词嵌入特征之后,所述方法还包括:
若任一所述词汇不在预设词表内,则采用默认特征值作为所述词汇的词嵌入特征。
在一实施例中,所述提取所述待识别语料的语料特征向量,包括:
将所述待识别语料作为已训练的句子嵌入模型的输入,获得所述句子嵌入模型输出的所述第一句子嵌入特征向量。
在一实施例中,所述提取所述待识别语料的语料特征向量,包括:
将所述待识别语料作为已训练的词频模型的输入,获得所述词频模型输出的所述第一词频特征向量。
在一实施例中,所述计算所述语料特征向量与所述问题特征向量之间的特征相似度,包括:
计算所述语料特征向量与所述问题特征向量之间的余弦相似度,将所述余弦相似度作为所述特征相似度。
本申请实施例提供了一种语料识别装置,所述装置包括:
语料获取模块,用于获取待识别语料;
特征提取模块,用于提取所述待识别语料的语料特征向量;所述语料特征向量包括:第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量;
相似度计算模块,用于针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度;所述问题特征向量包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
问题确定模块,用于选取与所述语料特征向量之间的特征相似度最高的业务问题作为所述待识别语料的识别结果。
本申请实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述语料识别方法。
本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述语料识别方法。
本申请上述实施例提供的技术方案,同时使用词嵌入特征向量、句子嵌入特征向量以及词频特征向量,作为特征值,对待识别语料与业务问题进行相似度匹配,从而找出与待识别语料的特征相似度最高的业务问题,作为待识别语料的识别结果,故无需准备大量训练语料进行机器学习,从而节省人力成本,即使业务问题改变或增多,也无需重新训练模型,节省计算资源。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的一种语料识别方法的流程示意图;
图3是图2对应实施例中步骤S230的细节流程图;
图4是本申请实施例提供的特征相似度的计算原理示意图;
图5是图2对应实施例中步骤S220的细节流程图;
图6是本申请实施例提供的三种特征向量的计算方式示意图;
图7是本申请实施例提供的一种语料识别装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的语料识别方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的语料识别方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的语料识别方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的语料识别方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的语料识别方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、智能手表、车载设备等智能终端。
图2是本申请实施例提供的一种语料识别方法的流程示意图。该方法可以由上述电子设备执行,如图2所示,该方法可以包括以下步骤S210-步骤S240。
步骤S210:获取待识别语料。
其中,待识别语料是指用户输入的自然语言。待识别语料可以由电子设备从外部设备接收到,也可以由电子设备直接采集得到。在一实施例中,电子设备可以采集语音信号,将语音信号转换成文本格式,此文本格式的语料可以认为是待识别语料。
举例来说,待识别语料可能是“我想知道逾期没缴款的利息”、“我的订单满1000元需要运费吗”。
步骤S220:提取所述待识别语料的语料特征向量。
其中,语料特征向量是指用向量的形式表征待识别语料的特征。可以通过已有的文本特征提取模型来提取待识别语料的语料特征向量。语料特征向量可以包括词嵌入特征向量、句子嵌入特征向量和词频特征向量,为了与业务问题的词嵌入特征向量、句子嵌入特征向量和词频特征向量进行区分,语料特征向量的词嵌入特征向量、句子嵌入特征向量和词频特征向量可以分别称为第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量。业务问题的词嵌入特征向量、句子嵌入特征向量和词频特征向量分别可以称为第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量。
其中,词嵌入特征向量可以通过训练好的词嵌入模型得到;句嵌入特征向量可以通过训练好的句嵌入模型得到;词频特征向量可以通过训练好的词频模型得到。
步骤S230:针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度。
其中,问题特征向量是指用向量的形式表征业务问题的特征。问题特征向量可以包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量。业务问题是指数据库中已存储的“问答对”的问题。例如,银行领域的业务问题可能有:“业务问题1:办卡需要准备哪些资料”、“业务问题2:利息怎么计算”、“业务问题3:年费收多少”等等。购物领域的业务问题可能有“业务问题1:客服电话多少”、“业务问题2:满千送百活动”、“业务问题3:网购多少免运费”等等。
数据库中可以提前存储当前业务可能的业务问题,并提取每个业务问题的问题特征向量。其中,问题特征向量的提取方式可以参照语料特征向量的提取方式。之后,计算待识别语料的语料特征向量分别与每个业务问题的问题特征向量之间的特征相似度。
特征相似度用于表征业务问题的问题特征向量与待识别语料的语料特征向量之间的相似度。特征之间的相似度越高,表示业务问题和待识别语料越相同。在一实施例中,可以通过计算问题特征向量与语料特征向量之间的余弦相似度,用余弦相似度表示特征相似度。在其他实施例中,也可以通过计算问题特征向量与语料特征向量之间的欧式距离,用欧式距离表示特征相似度。
步骤S240:选取与所述语料特征向量之间的特征相似度最高的业务问题,选取的所述业务问题为所述待识别语料的识别结果。
在一实施例中,基于每个业务问题与待识别语料之间的特征相似度,可以从数据库的大量业务问题中选取与待识别语料之间的特征相似度最高的业务问题。该选取的业务问题可以认为是待识别语料所要咨询的问题,即待识别语料的识别结果。
本申请上述实施例提供的技术方案,同时使用词嵌入特征向量、句子嵌入特征向量以及词频特征向量,作为特征值,对待识别语料与业务问题进行相似度匹配,从而找出与待识别语料的特征相似度最高的业务问题,作为待识别语料的识别结果,从而无需人工扩写每个业务问题的训练语料,节省人力成本,即使业务问题改变或增多,也无需重新训练模型,节省计算资源。
在一实施例中,如图3所示,上述步骤S230具体包括:
步骤S231:针对每个业务问题,提取所述业务问题对应的第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量。
参见上文,可以通过词嵌入模型、句子嵌入模型以及词频模型提取业务问题的词嵌入特征向量、句子嵌入特征向量以及词频特征向量,为与待识别语料的这三个特征向量进行区分,此处称为第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量。
举例来说,对待识别语料s与所有业务问题(q1,q2,...qN),进行特征抽取,可得到待识别语料的第一词嵌入特征(s_f1),待识别语料的第一句子嵌入特征(s_f2),待识别语料的第一词频特征(s_f3)。业务问题1的第二词嵌入特征(q1_f1),业务问题1的第二句子嵌入特征(q1_f2),业务问题1的第二词频特征(q1_f3);业务问题2的第二词嵌入特征(q2_f1),业务问题2的第二句子嵌入特征(q2_f2),业务问题2的第二词频特征(q2_f3),其余业务问题以此类推。f1、f2、f3依次表示词嵌入特征、句子嵌入特征和词频特征。
步骤S232:计算所述第一词嵌入特征向量与第二词嵌入特征向量之间的第一相似度、所述第一句子嵌入特征向量与第二句子嵌入特征向量之间的第二相似度、所述第一词频特征向量与第二词频特征向量之间的第三相似度。
如图4所示,特征1、特征2、特征3依次表示n维的词嵌入特征向量、m维句子嵌入特征向量和k维的词频特征向量;计算待识别语料(即用户句子)的特征1(即第一词嵌入特征向量s_f1)与每个业务问题的特征1(即第二词嵌入特征q1_f1,q2_f1,...,qN_f1)之间的余弦相似度,可得到N维(N等于业务问题数量)的相似度向量(即第一相似度)。
计算待识别语料的特征2(即第一句子嵌入特征向量s_f2)与每个业务问题的特征2(即第二句子嵌入特征向量q1_f2,q2_f2,...,qN_f2)之间的余弦相似度,可得到N维(N等于业务问题数量)的相似度向量(即第二相似度)。
计算用户句子的特征3(即第一词频特征向量(s_f3)与每个业务问题的特征3(第二词频特征向量q1_f3,q2_f3,...,qN_f3)的余弦相似度,可得到N维(N等于业务问题数量)的相似度向量(即第三相似度)。
步骤S233:计算所述第一相似度、所述第二相似度与所述第三相似度之和,得到所述待识别语料的语料特征向量与所述业务问题的问题特征向量之间的特征相似度。
举例来说,将第一相似度的N维向量、第二相似度的N维向量和第三相似度的N维向量相加,可以得到一个N维的向量,N表示业务问题的数量。其中,每一维的数值表示待识别语料与该维对应的业务问题的特征相似度。例如,第一位数值表示业务问题q1与待识别语料s之间的特征相似度。第二位数值表示业务问题q2与待识别语料s之间的特征相似度。以此类推。相似度数值最高的那一维对应的业务问题即为与待识别语料最相关的业务问题。
在一实施例中,如图5所示,上述步骤S220具体包括:
步骤S221:对所述待识别语料进行分词,得到多个词汇。
例如,待识别语料:“我想知道逾期没缴款的利息”,分词后可以得到“我/想/知道/逾期/没/缴款/的/利息”。其中,“我”、“想”、“知道”……分别代表一个词汇。
步骤S222:将每个所述词汇分别作为已训练的词嵌入模型的输入,获得每个所述词汇对应的词嵌入特征。
词嵌入(word embedding)模型的输入是词,输出是n维密集向量,即词嵌入特征。
待识别语料经过分词,假设得到词汇依次为token1,token2,...,tokenT,每个词汇分别找到词嵌入特征,即token1得到embedding_token1,token2得到embedding_token2,以此类推。
在一实施例中,若某个词汇不在预设的词表中(out-of-vocabulary),则该词汇可以视为token_Unknown(未知词汇),采用token_Unknown的词嵌入特征。token_Unknown的词嵌入特征可以提前配置好(即默认特征值)。
步骤S223:计算所有词汇对应的词嵌入特征的平均值,得到所述第一词嵌入特征。
将所有词汇的词嵌入特征相加平均,即(embedding_token1+…+embedding_tokenT)/T(T表示词汇个数),得到一个n维向量,即第一词嵌入特征。在其他实施例中,如果某个词汇属于不在词表中的未知词汇,则该词汇可以认为不存在词嵌入特征,可以不参与平均值的计算,即基于其他所有词汇的词嵌入特征计算平均值。
如图6所示,待识别语料经过分词后,将分词结果作为词嵌入模型的输入,之后将所有分词的词嵌入特征求平均,即可得到待识别语料的第一次嵌入特征向量;同理,业务问题的第二词嵌入特征向量也可采用相同的方式,先分词,后通过词嵌入模型计算每个词汇的词嵌入特征,最后通过求平均,得到业务问题的第二词嵌入特征向量(参见加粗的分支)。
其中,词嵌入模型可以通过大量已知的句子,通过遮挡句子中间一个词汇,基于已知的前后词汇,训练词嵌入模型,使预测得到的遮挡词汇趋近实际词汇。
如图6所示,将待识别语料作为已训练的句子嵌入(sentence embedding)模型的输入,可以获得句子嵌入模型输出的所述第一句子嵌入特征向量。同理,将业务问题作为已训练的句子嵌入模型的输入,可以获得句子嵌入模型输出的第二句子嵌入特征向量。句子嵌入模型的输入是句子,输出可以是m维密集型的特征向量。
其中,句子嵌入模型与词嵌入模型类似,可以通过遮挡句子中的某个字,训练句子嵌入模型,使预测得到的遮挡字趋近真实的字。
如图6所示,将待识别语料作为已训练的词频模型(即一元(uni-gram)及二元(bi-gram)的词频(tf-idf)模型)的输入,获得词频模型输出的第一词频特征向量。同理,将业务问题作为已训练的词频模型的输入,可以获得词频模型输出的第二词频特征向量。
其中,一元及二元的词频模型的输入是句子,输出是k维稀疏向量。k等于一元及二元的词表总和。例如,“我/想/知道/逾期/没/缴款/的/利息”,“我”是指一元,“我想”则代表二元,“想知道”是二元,“想”是一元。即一个分词表示一元,两个相邻分词的组合是二元。词表包含一元及二元的所有词汇,一元及二元的词频模型可以通过历史语料训练得到,其中,词表中每个词汇在历史语料中出现的频率已知,即历史语料的k维词频特征向量已知。故可以利用已知词频特征向量的历史语料训练得到词频模型。之后,利用训练好的词嵌入模型、句子嵌入模型和词频模型,提取业务问题和待识别语料的词嵌入特征向量、句子嵌入特征向量和词频特征向量。
举例来说,假设业务问题有:
q1:办卡需要准备哪些资料?
q2:利息怎么计算?
q3:年费收多少?
用户输入句(即待识别语料):我想知道逾期没缴款的利息?
经过分词,得到:
业务问题1的分词结果:办卡/需要/准备/哪些/资料;
业务问题2的分词结果:利息/怎么/计算;
业务问题3的分词结果:年费/收/多少;
待识别语料的分词结果:我/想/知道/逾期/没/缴款/的/利息;
以业务问题1为例,将”办卡、需要、准备、哪些、资料"这5个词,通过词嵌入模型,得到每个词的词嵌入特征,相加之后除以5,得到词嵌入特征向量[0.012,0.001,0.017,...](对应上文的n维特征向量),其余业务问题与待处理语料以此类推。
之后用句子嵌入模型,预测业务问题1,得到句子嵌入特征向量[0.310,0.014,0.001,…](对应上文的m维密集型特征向量),其余业务问题与待处理语料以此类推。
用历史语料训练一元(unigram)及二元(bigram)词频模型,再对业务问题1进行预测,得到词频特征向量:[0,0,0.28,0,..,0.37,...](对应上文的k维稀疏向量),例如,第一维“0”代表词表中第一个词在业务问题1中出现的频率为0,第三维“0.28”代表词表中第三个词在业务问题1中出现的频率为0.28,同理可推其他维度数值的含义。其余业务问题与待处理语料以此类推。
之后计算“待识别语料的词嵌入特征向量”与“所有业务问题的词嵌入特征向量”之余弦相似度,假设得到[-0.5,0.5,0.3];
计算“待识别语料的句子嵌入特征向量”与“所有业务问题的句子嵌入特征向量”之余弦相似度,假设得到[0.1,0.6,0.15];
计算“待识别语料的词频特征向量”与“所有业务问题的词频特征向量”之余弦相似度,假设得到[0,0.2,0];
之后将所有余弦相似度加总,即[-0.5,0.5,0.3]+[0.1,0.6,0.15]+[0,0.2,0]=[-0.4,1.3,0.45];
[-0.4,1.3,0.45]各维度对应之业务问题为[q1,q2,q3],取最大值表示与待识别语料最相关,即可得到q2“利息怎么计算”与待识别语料“我想知道逾期没缴款的利息””最相关。
举例来说,假设业务问题有:
q1:客服电话多少?
q2:满千送百活动?
q3:网购多少免运费?
待识别语料:我的订单满1000元需要运费吗?
经过分词,得到
业务问题1的分词结果:客服/电话/多少;
业务问题2的分词结果:满/千/送/百/活动;
业务问题3的分词结果:网购/多少/免运费;
待识别语料:我/的/订单/满/1000/元/需要/运费/吗;
以业务问题3为例,将“网购、多少、免运费”这3个词,通过词嵌入模型,得到每个词的词嵌入特征,假设词嵌入模型没有”免运费”,则视为未知词,以”网购、多少、未知词”这3个词向量,相加之后除以3,得到词嵌入特征向量[0.512,0.084,0.002,...](对应上文的n维特征向量),其余业务问题与待识别语料以此类推。
用句子嵌入模型,预测业务问题3,得到句子嵌入特征向量[0.074,0.144,0.097,…](对应上文的m维密集型特征向量),其余业务问题与待识别语料以此类推。
用历史语料训练一元(unigram)及二元(bigram)词频模型,再对业务问题3进行预测,得到词频特征向量:[0,0,0,0,..,0.6,...0.28](对应上文的k维稀疏向量),例如,第一维“0”代表词表中第一个词在业务问题3中出现的频率为0,最后一维“0.28”代表词表中最后一个词在业务问题3中出现的频率为0.28,同理可推其他维度数值的含义,其余业务问题与待识别语料以此类推。
之后计算“待识别语料的词嵌入特征向量”与“所有业务问题的词嵌入特征向量”之余弦相似度,假设得到[0.5,0.2,0.3];
计算“待识别语料的句子嵌入特征向量”与“所有业务问题的句子嵌入特征向量”之余弦相似度,假设得到[0.3,0.1,0.6];
计算“待识别语料的词频特征向量”与“所有业务问题的词频特征向量”之余弦相似度,假设得到[0,0.1,0];
将所有余弦相似度加总,即[0.5,0.2,0.3]+[0.3,0.1,0.6]+[0,0.1,0]=[0.8,0.3,0.9];
[0.8,0.3,0.9]各维度对应之业务问题为[q1,q2,q3],取最大值表示与待识别语料最相关,即可得到q3:“网购多少免运费”与待识别语料“订单满1000元需要运费吗”最相关。
上述方式使用3种特征计算方式,涵盖语意、语法、以及不同颗粒度,做为智能客服冷启动的方式,可节省人工撰写语料的成本,在无训练语料的情况下,即可上线服务,实现人机对话。
下述为本申请装置实施例,可以用于执行本申请上述语料识别方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请语料识别方法实施例。
图7为本申请一实施例示出的语料识别装置的框图。如图7所示,该装置包括:语料获取模块710、特征提取模块720、相似度计算模块730以及问题确定模块740。
语料获取模块710,用于获取待识别语料。
特征提取模块720,用于提取所述待识别语料的语料特征向量;所述语料特征向量包括:第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量。
相似度计算模块730,用于针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度;所述问题特征向量包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量。
问题确定模块740,用于选取与所述语料特征向量之间的特征相似度最高的业务问题,选取的所述业务问题为所述待识别语料的识别结果。
上述装置中各个模块的功能和作用的实现过程具体详见上述语料识别方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (7)

1.一种语料识别方法,其特征在于,所述方法包括:
获取待识别语料;
提取所述待识别语料的语料特征向量;所述语料特征向量包括:第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量;
针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度;所述问题特征向量包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
选取与所述语料特征向量之间的特征相似度最高的业务问题作为所述待识别语料的识别结果;
所述提取所述待识别语料的语料特征向量,包括:
对所述待识别语料进行分词,得到多个词汇;
将每个所述词汇分别作为已训练的词嵌入模型的输入,获得每个所述词汇对应的词嵌入特征;
计算所有词汇对应的词嵌入特征的平均值,得到所述第一词嵌入特征;
其中,所述针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度,包括:
针对每个业务问题,提取所述业务问题对应的第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
计算所述第一词嵌入特征向量与第二词嵌入特征向量之间的第一相似度、所述第一句子嵌入特征向量与第二句子嵌入特征向量之间的第二相似度、所述第一词频特征向量与第二词频特征向量之间的第三相似度;
计算所述第一相似度、所述第二相似度与所述第三相似度之和,得到所述待识别语料的语料特征向量与所述业务问题的问题特征向量之间的特征相似度;
所述计算所述语料特征向量与所述问题特征向量之间的特征相似度,包括:
计算所述语料特征向量与所述问题特征向量之间的余弦相似度,将所述余弦相似度作为所述特征相似度。
2.根据权利要求1所述的方法,其特征在于,所述将每个所述词汇分别作为已训练的词嵌入模型的输入,获得每个所述词汇对应的词嵌入特征之后,所述方法还包括:
若任一所述词汇不在预设词表内,则采用默认特征值作为所述词汇的词嵌入特征。
3.根据权利要求1所述的方法,其特征在于,所述提取所述待识别语料的语料特征向量,包括:
将所述待识别语料作为已训练的句子嵌入模型的输入,获得所述句子嵌入模型输出的所述第一句子嵌入特征向量。
4.根据权利要求1所述的方法,其特征在于,所述提取所述待识别语料的语料特征向量,包括:
将所述待识别语料作为已训练的词频模型的输入,获得所述词频模型输出的所述第一词频特征向量。
5.一种语料识别装置,其特征在于,所述装置包括:
语料获取模块,用于获取待识别语料;
特征提取模块,用于提取所述待识别语料的语料特征向量;所述语料特征向量包括:第一词嵌入特征向量、第一句子嵌入特征向量以及第一词频特征向量,
所述提取所述待识别语料的语料特征向量,包括:
对所述待识别语料进行分词,得到多个词汇;
将每个所述词汇分别作为已训练的词嵌入模型的输入,获得每个所述词汇对应的词嵌入特征;
计算所有词汇对应的词嵌入特征的平均值,得到所述第一词嵌入特征;
相似度计算模块,用于针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度;所述问题特征向量包括第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
问题确定模块,用于选取与所述语料特征向量之间的特征相似度最高的业务问题作为所述待识别语料的识别结果;
其中,所述针对每个业务问题,根据所述业务问题对应的问题特征向量,计算所述语料特征向量与所述问题特征向量之间的特征相似度,包括:
针对每个业务问题,提取所述业务问题对应的第二词嵌入特征向量、第二句子嵌入特征向量以及第二词频特征向量;
计算所述第一词嵌入特征向量与第二词嵌入特征向量之间的第一相似度、所述第一句子嵌入特征向量与第二句子嵌入特征向量之间的第二相似度、所述第一词频特征向量与第二词频特征向量之间的第三相似度;
计算所述第一相似度、所述第二相似度与所述第三相似度之和,得到所述待识别语料的语料特征向量与所述业务问题的问题特征向量之间的特征相似度;
所述计算所述语料特征向量与所述问题特征向量之间的特征相似度,包括:
计算所述语料特征向量与所述问题特征向量之间的余弦相似度,将所述余弦相似度作为所述特征相似度。
6.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-4任意一项所述的语料识别方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-4任意一项所述的语料识别方法。
CN202011523546.7A 2020-12-21 2020-12-21 语料识别方法及装置、电子设备、存储介质 Active CN112613295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011523546.7A CN112613295B (zh) 2020-12-21 2020-12-21 语料识别方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011523546.7A CN112613295B (zh) 2020-12-21 2020-12-21 语料识别方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112613295A CN112613295A (zh) 2021-04-06
CN112613295B true CN112613295B (zh) 2023-12-22

Family

ID=75243911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011523546.7A Active CN112613295B (zh) 2020-12-21 2020-12-21 语料识别方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112613295B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155027A (ja) * 1999-11-26 2001-06-08 Nec Corp 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体
JP2014002237A (ja) * 2012-06-18 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識単語追加装置とその方法とプログラム
CN108763348A (zh) * 2018-05-15 2018-11-06 南京邮电大学 一种扩展短文本词特征向量的分类改进方法
KR20180125746A (ko) * 2017-05-16 2018-11-26 동아대학교 산학협력단 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109783643A (zh) * 2019-01-09 2019-05-21 北京一览群智数据科技有限责任公司 一种近似语句推荐方法及装置
CN110008465A (zh) * 2019-01-25 2019-07-12 网经科技(苏州)有限公司 句子语义距离的度量方法
CN110134777A (zh) * 2019-05-29 2019-08-16 三角兽(北京)科技有限公司 问题去重方法、装置、电子设备和计算机可读存储介质
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN110750983A (zh) * 2019-10-18 2020-02-04 深圳前海微众银行股份有限公司 语料识别方法、装置、设备及计算机可读存储介质
CN110874528A (zh) * 2018-08-10 2020-03-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN111061873A (zh) * 2019-11-28 2020-04-24 北京工业大学 一种基于Attention机制的多通道的文本分类方法
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN111680490A (zh) * 2020-06-10 2020-09-18 东南大学 一种跨模态的文档处理方法、装置及电子设备
CN111898643A (zh) * 2020-07-01 2020-11-06 上海依图信息技术有限公司 一种语义匹配方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357531A1 (en) * 2015-11-27 2018-12-13 Devanathan GIRIDHARI Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
KR102604552B1 (ko) * 2016-07-15 2023-11-22 삼성전자주식회사 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155027A (ja) * 1999-11-26 2001-06-08 Nec Corp 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体
JP2014002237A (ja) * 2012-06-18 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識単語追加装置とその方法とプログラム
KR20180125746A (ko) * 2017-05-16 2018-11-26 동아대학교 산학협력단 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
CN108763348A (zh) * 2018-05-15 2018-11-06 南京邮电大学 一种扩展短文本词特征向量的分类改进方法
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN110874528A (zh) * 2018-08-10 2020-03-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN109783643A (zh) * 2019-01-09 2019-05-21 北京一览群智数据科技有限责任公司 一种近似语句推荐方法及装置
CN110008465A (zh) * 2019-01-25 2019-07-12 网经科技(苏州)有限公司 句子语义距离的度量方法
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN110134777A (zh) * 2019-05-29 2019-08-16 三角兽(北京)科技有限公司 问题去重方法、装置、电子设备和计算机可读存储介质
CN110705612A (zh) * 2019-09-18 2020-01-17 重庆邮电大学 一种混合多特征的句子相似度计算方法、存储介质及系统
CN110750983A (zh) * 2019-10-18 2020-02-04 深圳前海微众银行股份有限公司 语料识别方法、装置、设备及计算机可读存储介质
CN111061873A (zh) * 2019-11-28 2020-04-24 北京工业大学 一种基于Attention机制的多通道的文本分类方法
CN111680490A (zh) * 2020-06-10 2020-09-18 东南大学 一种跨模态的文档处理方法、装置及电子设备
CN111898643A (zh) * 2020-07-01 2020-11-06 上海依图信息技术有限公司 一种语义匹配方法及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
A Feature-Enhanced Entity Recognition Method for Chinese Electronic Medical Records;Beibei Zhang等;2018 9th International Conference on Information Technology in Medicine and Education (ITME);全文 *
一种基于概念向量空间的文本相似度计算方法;李琳等;《数据分析与知识发现》;20180525(第05期);第52-62页 *
基于历时语料库的在线词典编纂系统设计;吴先等;《中文信息学报》;20200515(第05期);第31-39页 *
基于知网义原词向量表示的无监督词义消歧方法;唐共波;于东;荀恩东;;中文信息学报(第06期);全文 *
基于自动编码器的句子语义特征提取及相似度计算;马建红等;《郑州大学学报(理学版)》;20180508(第02期);第89-94页 *
基于融合共现距离的句法网络下文本语义相似度计算;严娇;马静;房康;;数据分析与知识发现(第12期);全文 *
融合词向量的多特征句子相似度计算方法研究;李峰等;《计算机科学与探索》;20171130(第04期);第608-618页 *
词向量语义表示研究进展;李枫林等;《情报科学》;20190501(第05期);第157-167页 *

Also Published As

Publication number Publication date
CN112613295A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
US9740677B2 (en) Methods and systems for analyzing communication situation based on dialogue act information
US9792279B2 (en) Methods and systems for analyzing communication situation based on emotion information
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN112330455B (zh) 用于推送信息的方法、装置、设备以及存储介质
CN108287848B (zh) 用于语义解析的方法和系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112487824A (zh) 客服语音情感识别方法、装置、设备及存储介质
CN110399473B (zh) 为用户问题确定答案的方法和装置
CN110110143B (zh) 一种视频分类方法及装置
CN111739537B (zh) 语义识别方法、装置、存储介质及处理器
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置
CN112613295B (zh) 语料识别方法及装置、电子设备、存储介质
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114610576A (zh) 一种日志生成监控方法和装置
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
CN109787784B (zh) 群组推荐方法、装置、存储介质和计算机设备
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN115525740A (zh) 对话应答语句的生成方法、装置、电子设备及存储介质
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant