CN109145290B - 基于字向量与自注意力机制的语义相似度计算方法 - Google Patents

基于字向量与自注意力机制的语义相似度计算方法 Download PDF

Info

Publication number
CN109145290B
CN109145290B CN201810823575.1A CN201810823575A CN109145290B CN 109145290 B CN109145290 B CN 109145290B CN 201810823575 A CN201810823575 A CN 201810823575A CN 109145290 B CN109145290 B CN 109145290B
Authority
CN
China
Prior art keywords
sentence
vector
calculation
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810823575.1A
Other languages
English (en)
Other versions
CN109145290A (zh
Inventor
宋士祺
于丁文
宫俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810823575.1A priority Critical patent/CN109145290B/zh
Publication of CN109145290A publication Critical patent/CN109145290A/zh
Application granted granted Critical
Publication of CN109145290B publication Critical patent/CN109145290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于字向量与自注意力机制的语义相似度计算方法,S1、面向指定领域搜集、爬取网络语料知识库,并生成每一个汉字的字向量表示;S2、字向量依次替换句子S1、S2中的每一个汉字生成句向量;对句子S1、S2中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量;S3、对得到的语义信息向量A′1、A′2进行相似度计算,获得两个向量之间的语义相似度。本发明的技术方案解决了现有技术中的句子的语义相似度计算准确率与速度不足的的问题。

Description

基于字向量与自注意力机制的语义相似度计算方法
技术领域
本发明涉及自然语言处理技术领域,具体而言,尤其涉及一种基于字向量与自注意力机制的语义相似度计算方法。
背景技术
句子相似度计算广泛应用于信息检索、机器翻译、文本挖掘、自动问答系统等领域。如基于实例的问答系统,需要计算自然问句与数据库中实例的句子语义相似度,返回最相似问题的答案。由于中文的一词多义以及口语的灵活多变等特性,提高句子的语义相似度计算是自然语言领域一个亟待解决的问题。
传统的计算语义相似度主要分为两种:一种是基于数理统计的方法,一种是基于机器学习的方法。基于数理统计的方法是根据词频、词性等进行统计计算,并没有真正涉及语义信息的计算。基于机器学习的方法是根据知识库来建立语义关系模型,但没有完整考虑整个句子的中词与词之间的语义信息。
发明内容
根据上述提出句子的语义相似度计算准确率与速度不足的技术问题,而提供一种基于字向量与自注意力机制的语义相似度计算方法。本发明主要利用通过位置编码与自注意力机制计算可以更好的获得句子的语义信息,从而提高语义相似度计算的准确率与速度。
本发明采用的技术手段如下:
一种基于字向量与自注意力机制的语义相似度计算方法,包括:
S1、面向指定领域搜集、爬取网络语料知识库,并生成每一个汉字的字向量表示。
S2、字向量依次替换句子S1、S2中的每一个汉字生成句向量。
对句子S1、S2中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量。
S3、对得到的语义信息向量A'1、A′2进行相似度计算,获得两个向量之间的语义相似度。
进一步地,步骤S1中,具体包括以下步骤:
S11、使用集搜客进行网络语料爬取,获取相应语料。
S12、对语料进行预处理,去除停用词、标点符号、无用数字等,整理获得原始语料知识库。
S13、对单独每一个句子按照字进行切分,以句子为训练单位单个汉字依次输入Word2vec工具的CBOW算法生成维度为Model的字向量模型。
因为,字包含的语义比词的语义要丰富,并且字的数量远远小于词的数量,训练时间与参数要小很多,还能够避免因为分词错误导致的语义错误。
进一步地,步骤S2中,具体包括以下步骤:
S21、假设句子S1、S2分别包含n、m个字,则句向量表示为S1=(w11,w12,…,w1n)、S2=(w21,w22,…,w2n);句子S1为n×Model的矩阵,句子S2为m×Model的矩阵,wik代表第i个句子第k个字的向量化表示。
S22、句子S中的每个字向量只是单纯的罗列,没有包含句子顺序信息,因此,对句向量中的每个字进行位置编号然后对每个字向量分别进行Position Embedding构造,构造公式为:
PE(t,2i)=sin(t/100002i/Model);
PE(t,2i+1)=cos(t/100002i/Model);
公式中t为字向量在句子中位置的编号,i为当前字向量的第i个元素,Model即为字向量的维度。
S23、依次构造得到的位置向量PE与字向量进行简单的相加操作,得到S′1、S′2
S24、对当前句子S′1、S′2中分别进行自注意力计算,得到句子内部的语义联系,计算公式为:
Figure BDA0001741915970000031
公式中第一次输入Q=K=V都是相同的句向量S′,也就是前面构造过的句向量。
其意义为针对S′的每个字向量依次与S′中的所有字进行内积并进行归一化处理以获得两个字之间的相似度,除以
Figure BDA0001741915970000032
进行调节作用,使内积不至于过大影响计算,也就是对当前句向量进行标准的自注意力计算。
S25、对当前注意力机制循环计算k次,每次得到的输出作为下一次训练的输入,最终将每次循环计算的结果进行线性映射到Model维内,得到最终的语义信息向量A′;
句向量S′1经过注意力计算得到n×Model维的向量A′1,S′2得到m×Model维的向量A′2
进一步地,步骤S3中,具体包括以下步骤:
S31、对于A′1、A′2将它们理解为句向量S1、S2经过计算后的另一种表示方法,此时A′1=(a′11,a′12,…,a′1n)、A′2=(a′21,a′22,…,a′2m);
S32、α与β为句子成分系数,α+β=1,在当前模型我们取α=β=0.5;
S33、当前公式计算规则表示为A′1中的n维向量都会与A′2中的m维向量进行相似度比较,取最大值依次进行累加;A′2中的m维向量都会与A′1中的n维向量进行相同操作;两部分分别乘句子成分系数α与β,最后相加获得语义相似度;相似度计算公式为:
Figure BDA0001741915970000033
Figure BDA0001741915970000041
进一步地,步骤S25中,当前注意力机制循环计算次数k,2≤k≤5。
与现有技术相比较,本发明所述的基于字向量与自注意力机制的语义相似度计算方法,面向特定领域搜集、爬取网络语料知识库;语料预处理,训练生成相应字向量;字向量依次替换要进行相似度计算句子中的每一个汉字生成句向量;对句向量中的每一个字向量依次进行位置向量构造与自注意力机制模型计算得到最终的语义信息;对两个句子的最终语义信息进行相似度公式计算,获得两个句子之间的语义相似度,该方法训练参数少、训练时间短,并且通过位置编码与自注意力机制计算可以更好的获得句子的语义信息,最终提高语义相似度计算的准确率与速度。
基于上述理由本发明可在自然语言处理等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于字向量与自注意力机制的句子语义相似度计算方法的流程图。
图2为本发明基于自注意力机制的语义信息计算模型结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种基于字向量与自注意力机制的语义相似度计算方法,包括:
S1、面向指定领域搜集、爬取网络语料知识库,并生成每一个汉字的字向量表示。
S11、使用集搜客进行网络语料爬取,获取相应语料。
S12、对语料进行预处理,去除停用词、标点符号、无用数字等,整理获得原始语料知识库。
S13、对单独每一个句子按照字进行切分,以句子为训练单位单个汉字依次输入Word2vec工具的CBOW算法生成维度为Model的字向量模型。
因为字包含的语义比词的语义要丰富,并且字的数量远远小于词的数量,训练时间与参数要小很多,还可以避免因为分词错误导致的语义错误。
S2、字向量依次替换句子S1、S2中的每一个汉字生成句向量。
对句子S1、S2中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量。
S21、假设句子S1、S2分别包含n、m个字,则句向量表示为S1=(w11,w12,…,w1n)、S2=(w21,w22,…,w2n)。
句子S1为n×Model的矩阵,句子S2为m×Model的矩阵,wik代表第i个句子第k个字的向量化表示。
S22、句子S中的每个字向量只是单纯的罗列,没有包含句子顺序信息,因此,对句向量中的每个字进行位置编号然后对每个字向量分别进行Position Embedding构造,构造公式为:
PE(t,2i)=sin(t/100002i/Model);
PE(t,2i+1)=cos(t/100002i/Model);
公式中t为字向量在句子中位置的编号,i为当前字向量的第i个元素,Model即为字向量的维度。
S23、依次构造得到的位置向量PE与字向量进行简单的相加操作,得到S′1、S′2
图2为本发明一种基于自注意力机制的语义信息计算模型结构图。首先输入句向量,然后按照公式进行自注意力机制计算也就是图中阴影部分,循环计算m次最后进行拼连与线性映射得到最终的语义向量A′。
S24、对当前句子S′1、S′2中分别进行自注意力计算,得到句子内部的语义联系,计算公式为:
Figure BDA0001741915970000061
公式中第一次输入Q=K=V都是相同的句向量S′,也就是前面构造过的句向量。
其意义为针对S′的每个字向量依次与S′中的所有字进行内积并进行归一化处理以获得两个字之间的相似度,除以
Figure BDA0001741915970000062
进行调节作用,使内积不至于过大影响计算,也就是对当前句向量进行标准的自注意力计算。
S25、对当前注意力机制循环计算k,优选的,2≤k≤5,每次得到的输出作为下一次训练的输入,最终将每次循环计算的结果进行线性映射到Model维内,得到最终的语义信息向量A′;句向量S′1经过注意力计算得到n×Model维的向量A′1,S′2得到m×Model维的向量A′2
S3、对得到的语义信息向量A′1、A′2进行相似度计算,获得两个向量之间的语义相似度。
S31、对于A′1、A′2将它们理解为句向量S1、S2经过计算后的另一种表示方法,此时A′1=(a′11,a′12,…,a′1n)、A′2=(a′21,a′22,…,a′2m)。
S32、α与β为句子成分系数,α+β=1,在当前模型我们取α=β=0.5。
S33、当前公式计算规则表示为A′1中的n维向量都会与A′2中的m维向量进行相似度比较,取最大值依次进行累加;A′2中的m维向量都会与A′1中的n维向量进行相同操作;两部分分别乘句子成分系数α与β,最后相加获得语义相似度;相似度计算公式为:
Figure BDA0001741915970000071
通过当前模型计算可以成功计算出两个句子之间的语义相似度,对于语义不同的句子具有良好的语义区分功能,能够应用在基于实体对或知识库的智能问答系统中。
本发明中,注意力机制模型计算,通过对每一个句子中的字向量依次与当前句子中的所有其余字向量进行相似度计算以获得他们之间的联系,也就是语义信息。
GooSeeker,是集搜客GooSeeker网页抓取和整理软件。
Word2vec工具,一个将单词转换成向量形式的工具,在这里就是将汉字转换成model维度的向量表示开源工具包。
(Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。)
CBOW算法,CBOW是Word2vec工具包中生成词向量的一种模型,叫做连续词袋模型。该模型不包含词在句子中的顺序信息,只是通过上下文来预测当前中心词。我们在这里通过该模型来获得当前字的向量表示。
Position Embedding构造,这部分构造分为sin与cos,这样我们对于第PEpos+n可以被前面的PEpos表示(因为进过sin与cos计算我们可以表示当前平面内的所有点)。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种基于字向量与自注意力机制的语义相似度计算方法,其特征在于,包括:
S1、面向指定领域搜集、爬取网络语料知识库,并生成每一个汉字的字向量表示;
S2、字向量依次替换句子S1、S2中的每一个汉字生成句向量;
对句子S1、S2中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量;
S3、对得到的语义信息向量A′1、A′2进行相似度计算,获得两个向量之间的语义相似度;
步骤S2中,具体包括以下步骤:
S21、假设句子S1、S2分别包含n、m个字,则句向量表示为S1=(w11,w12,…,w1n)、S2=(w21,w22,…,w2n);
句子S1为n×Model的矩阵,句子S2为m×Model的矩阵,wik代表第i个句子第k个字的向量化表示;
S22、句子S中的每个字向量只是单纯的罗列,没有包含句子顺序信息,因此,对句向量中的每个字进行位置编号然后对每个字向量分别进行Position Embedding构造,构造公式为:
PE(t,2i)=sin(t/100002i/Model);
PE(t,2i+1)=cos(t/100002i/Model);
公式中t为字向量在句子中位置的编号,i为当前字向量的第i个元素,Model即为字向量的维度;
S23、依次构造得到的位置向量PE与字向量进行简单的相加操作,得到S′1、S′2
S24、对当前句子S′1、S′2中分别进行自注意力计算,得到句子内部的语义联系,计算公式为:
Figure FDA0002462179610000011
公式中第一次输入Q=K=V都是相同的句向量S′,也就是前面构造过的句向量;
S25、对当前注意力机制循环计算k次,每次得到的输出作为下一次训练的输入,最终将每次循环计算的结果进行线性映射到Model维内,得到最终的语义信息向量A′;
句向量S′1经过注意力计算得到n×Model维的向量A′1,S′2得到m×Model维的向量A′2
2.根据权利要求1所述的基于字向量与自注意力机制的语义相似度计算方法,其特征在于,
步骤S1中,具体包括以下步骤:
S11、使用集搜客进行网络语料爬取,获取相应语料;
S12、对语料进行预处理,去除停用词、标点符号、无用数字,整理获得原始语料知识库;
S13、对单独每一个句子按照字进行切分,以句子为训练单位单个汉字依次输入Word2vec工具的CBOW算法生成维度为Model的字向量模型。
3.根据权利要求2所述的基于字向量与自注意力机制的语义相似度计算方法,其特征在于,
步骤S3中,具体包括以下步骤:
S31、对于A′1、A′2将它们理解为句向量S1、S2经过计算后的另一种表示方法,此时A′1=(a′11,a′12,…,a′1n)、A′2=(a′21,a′22,…,a′2m);
S32、α与β为句子成分系数,α+β=1,在当前模型我们取α=β=0.5;
S33、当前公式计算规则表示为A′1中的n维向量都会与A′2中的m维向量进行相似度比较,取最大值依次进行累加;A′2中的m维向量都会与A′1中的n维向量进行相同操作;两部分分别乘句子成分系数α与β,最后相加获得语义相似度;相似度计算公式为:
Figure FDA0002462179610000031
4.根据权利要求1所述的基于字向量与自注意力机制的语义相似度计算方法,其特征在于,
步骤S25中,当前注意力机制循环计算次数k,2≤k≤5。
CN201810823575.1A 2018-07-25 2018-07-25 基于字向量与自注意力机制的语义相似度计算方法 Active CN109145290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810823575.1A CN109145290B (zh) 2018-07-25 2018-07-25 基于字向量与自注意力机制的语义相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810823575.1A CN109145290B (zh) 2018-07-25 2018-07-25 基于字向量与自注意力机制的语义相似度计算方法

Publications (2)

Publication Number Publication Date
CN109145290A CN109145290A (zh) 2019-01-04
CN109145290B true CN109145290B (zh) 2020-07-07

Family

ID=64797818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810823575.1A Active CN109145290B (zh) 2018-07-25 2018-07-25 基于字向量与自注意力机制的语义相似度计算方法

Country Status (1)

Country Link
CN (1) CN109145290B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666482B (zh) * 2019-03-06 2022-08-02 珠海格力电器股份有限公司 查询方法及装置、存储介质和处理器
CN110120096A (zh) * 2019-05-14 2019-08-13 东北大学秦皇岛分校 一种基于显微单目视觉的单细胞三维重建方法
CN110287326A (zh) * 2019-07-03 2019-09-27 上海冰鉴信息科技有限公司 一种带背景描述的企业情感分析方法
CN111639152B (zh) * 2019-08-29 2021-04-13 上海卓繁信息技术股份有限公司 意图识别方法
CN110717098B (zh) * 2019-09-20 2022-06-24 中国科学院自动化研究所 基于元路径的上下文感知用户建模方法、序列推荐方法
CN110941951B (zh) * 2019-10-15 2022-02-15 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN111144129B (zh) * 2019-12-26 2023-06-06 成都航天科工大数据研究院有限公司 一种基于自回归与自编码的语义相似度获取方法
CN111209395B (zh) * 2019-12-27 2022-11-11 铜陵中科汇联科技有限公司 一种短文本相似度计算系统及其训练方法
US11557284B2 (en) 2020-01-03 2023-01-17 International Business Machines Corporation Cognitive analysis for speech recognition using multi-language vector representations
CN111325028B (zh) * 2020-02-20 2021-06-18 齐鲁工业大学 一种基于深度分层编码的智能语义匹配方法和装置
CN112133304B (zh) * 2020-09-18 2022-05-06 中科极限元(杭州)智能科技股份有限公司 基于前馈神经网络的低延时语音识别模型及训练方法
CN112633008A (zh) * 2020-12-28 2021-04-09 中国石油大学(华东) 基于多特征注意力的卷积神经网络句子相似度计算方法
CN112948360A (zh) * 2021-01-26 2021-06-11 华院计算技术(上海)股份有限公司 一种基于字向量相似度的医疗发票条目名称标准化方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239512A (zh) * 2017-05-18 2017-10-10 华中科技大学 一种结合评论关系网络图的微博垃圾评论识别方法
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN108021555A (zh) * 2017-11-21 2018-05-11 浪潮金融信息技术有限公司 一种基于深度卷积神经网络的问句相似度度量方法
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法
CN108132931A (zh) * 2018-01-12 2018-06-08 北京神州泰岳软件股份有限公司 一种文本语义匹配的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239512A (zh) * 2017-05-18 2017-10-10 华中科技大学 一种结合评论关系网络图的微博垃圾评论识别方法
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN108021555A (zh) * 2017-11-21 2018-05-11 浪潮金融信息技术有限公司 一种基于深度卷积神经网络的问句相似度度量方法
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法
CN108132931A (zh) * 2018-01-12 2018-06-08 北京神州泰岳软件股份有限公司 一种文本语义匹配的方法及装置

Also Published As

Publication number Publication date
CN109145290A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145290B (zh) 基于字向量与自注意力机制的语义相似度计算方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN110705294A (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
CN106372107B (zh) 自然语言文句库的生成方法及装置
CN107766511A (zh) 智能问答方法、终端及存储介质
CN108419094A (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN105069143B (zh) 提取文档中关键词的方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN110597998A (zh) 一种结合句法分析的军事想定实体关系抽取方法及装置
CN111695358B (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN111339277A (zh) 基于机器学习的问答交互方法及装置
US20210089829A1 (en) Augmenting attentioned-based neural networks to selectively attend to past inputs
CN115470338B (zh) 一种基于多路召回的多场景智能问答方法和系统
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111858854A (zh) 一种基于历史对话信息的问答匹配方法及相关装置
CN110222192A (zh) 语料库建立方法及装置
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN112417119A (zh) 一种基于深度学习的开放域问答预测方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN111523328A (zh) 一种智能客服语义处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant