CN107291783A - 一种语义匹配方法及智能设备 - Google Patents

一种语义匹配方法及智能设备 Download PDF

Info

Publication number
CN107291783A
CN107291783A CN201610227718.3A CN201610227718A CN107291783A CN 107291783 A CN107291783 A CN 107291783A CN 201610227718 A CN201610227718 A CN 201610227718A CN 107291783 A CN107291783 A CN 107291783A
Authority
CN
China
Prior art keywords
sentence
clause
vector
resolved
rule semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610227718.3A
Other languages
English (en)
Other versions
CN107291783B (zh
Inventor
陈见耸
高鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yutou Technology Hangzhou Co Ltd
Original Assignee
Yutou Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yutou Technology Hangzhou Co Ltd filed Critical Yutou Technology Hangzhou Co Ltd
Priority to CN201610227718.3A priority Critical patent/CN107291783B/zh
Priority to PCT/CN2017/080107 priority patent/WO2017177901A1/zh
Priority to TW106112235A priority patent/TWI638274B/zh
Publication of CN107291783A publication Critical patent/CN107291783A/zh
Application granted granted Critical
Publication of CN107291783B publication Critical patent/CN107291783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语义匹配方法及智能设备;方法包括:根据使用者的输入获取待解析语句;根据待解析语句匹配得到至少一个规则语义句式;处理得到待解析语句的第一语句向量,以及分别处理得到匹配得到的至少一个规则语义句式的第二语句向量;分别根据第一语句向量和每个第二语句向量,处理得到待解析语句与每个匹配得到的规则语义句式之间的向量相似度;分别将每个向量相似度与一预设的相似度阈值进行比较,并返回大于相似度阈值的向量相似度所对应的规则语义句式的语义信息,以作为待解析语句的语义。上述技术方案的有益效果是:解决语义匹配需要人工撰写大量的语义句式规则,降低语义匹配操作的复杂度,并且大幅提升语义匹配的准确度。

Description

一种语义匹配方法及智能设备
技术领域
本发明涉及语义分析技术领域,尤其涉及一种语义匹配方法及智能设备。
背景技术
随着智能设备的普及,人与智能设备之间如何进行更直接友好的信息交互称为一个比较重要的问题。现阶段对于人与智能设备之间信息交互的方式大体可以包括:直接通过输入设备(例如键盘或者鼠标)的方式,通过识别使用者的手势动作进行信息交互的方式,以及通过识别使用者的语音信息进行信息交互的方法等。在实践中,由于自然语言(即口头语言)对于使用者具有天然的便捷性和友好性,因此基于自然语言的语义匹配和识别的信息交互方式自然需要重点发展,以期待给使用者带来较佳的使用体验。
但是现有技术中,智能设备对自然语言进行语义分析从而支持实现人机交互的前提是需要手动输入大量的语句规则来支持语义匹配的过程,这会给使用者或者开发者带来极大的麻烦,因此降低了语义分析的效率;并且,通常的语义分析方法是将语句规则与待判断的语句进行一一对应的匹配,匹配到则返回该语句规则的语义,匹配不到返回匹配失败的结果,因此语义分析的准确性依赖于使用者或开发者手动输入的语义规则的数量,即语义规则数据库的规模大小,由于使用者或开发者手动输入的语义规则非常有限,因此通常导致语义分析的结果并不准确,从而影响语音交互方式的使用体验。
发明内容
根据现有技术中存在的上述问题,现提供一种语义匹配方法及智能设备的技术方案,旨在解决传统语义匹配需要事先人工撰写大量的语义句式规则,降低语义匹配操作的复杂度,并且大幅提升语义匹配的准确度。
上述技术方案具体包括:
一种语义匹配方法,适用于智能设备;其中,于所述智能设备中预设多个规则语义句式,还包括:
步骤S1,根据使用者的输入获取待解析语句;
步骤S2,根据所述待解析语句匹配得到至少一个所述规则语义句式;
步骤S3,处理得到所述待解析语句的第一语句向量,以及分别处理得到匹配得到的至少一个所述规则语义句式的第二语句向量;
步骤S4,分别根据所述第一语句向量和每个所述第二语句向量,处理得到所述待解析语句与每个匹配得到的所述规则语义句式之间的向量相似度;
步骤S5,分别将每个所述向量相似度与一预设的相似度阈值进行比较,并返回大于所述相似度阈值的所述向量相似度所对应的所述规则语义句式的语义信息,以作为所述待解析语句的语义。
优选的,该语义匹配方法,其中,预设所述规则语义句式,并建立关联于所述规则语义句式的索引的方法包括:
步骤A1,分别以使用者预先设置的不同类型的标签替代所述规则语义句式中相应类型的关键信息;
步骤A2,将每个所述标签视为一个字,并以每个字为一个索引单元,建立对于所述规则语义句式的索引。
优选的,该语义匹配方法,其中,所述步骤A2具体包括:
步骤A21,采用哈希倒排索引方式罗列在所有所述规则语义句式中出现的所述索引单元;
步骤A22,在每个所述索引单元后分别链接关联于所述索引单元的每个所述规则语义句式的序号。
优选的,该语义匹配方法,其中,在执行所述步骤S2之前,首先以不同类型的所述标签替代所述待解析语句中相应类型的关键信息;
所述步骤S2具体包括:
步骤S21,将每个所述标签视为一个字,并以所述待解析语句中的每个字作为一个检索单元,依据所述规则语义句式的所述索引,分别检索得到匹配于所述待解析语句的至少一个所述规则语义句式;
步骤S22,分别处理得到每个检索得到的所述规则语义句式与所述待解析语句之间的匹配度;
步骤S23,分别将关联于每个检索得到的所述规则语义句式的所述匹配度与一预设的匹配度阈值进行比较,保留大于所述匹配度阈值的所述匹配度所对应的至少一个所述规则语义句式;
步骤S24,输出被保留的至少一个所述规则语义句式,以作为匹配得到的所述规则语义句式。
优选的,该语义匹配方法,其中,所述步骤S22中,依照下述公式计算得到所述匹配度:
S=(S1+S2)/2;
其中,S表示所述匹配度;
S1表示所述待解析语句与所述规则语义句式之间的匹配部分占所述待解析语句的比例;
S2表示所述待解析语句与所述规则语义句式之间的匹配部分占所述规则语义句式之间的比例。
优选的,该语义匹配方法,其中,预先训练形成一向量处理模型;
所述步骤S3中,计算得到所述第一语句向量的方法包括:
步骤S31a,将一条所述待解析语句进行分词处理;
步骤S32a,将经过所述分词处理的所述待解析语句中的每个词输入至所述向量处理模型中,以分别得到关联于每个词的词向量;
步骤S33a,根据所有所述词向量处理得到所述待解析语句的所述第一语句向量。
优选的,该语义匹配方法,其中,预先训练形成一向量处理模型;
所述步骤S3中,计算得到所述第二语句向量的方法包括:
步骤S31b,将一条所述规则语义句式进行分词处理;
步骤S32b,将经过所述分词处理的所述规则语义句式中的每个词输入至所述向量处理模型中,以分别得到关联于每个词的词向量;
步骤S33b,根据所有所述词向量处理得到所述规则语义句式的所述第二语句向量。
优选的,该语义匹配方法,其中,训练形成所述向量处理模型的方法包括:
步骤B1,获取预设的多个语料信息;
步骤B2,分别对每个所述语料信息进行分词处理;
步骤B3,分别将每个经过所述分词处理的所述语料信息作为所述向量处理模型的输入,根据所述向量处理模型输出对应不同词的所述词向量;
步骤B4,经过多个所述语料信息的训练,最终训练形成所述向量处理模型;
每个所述语料信息中包括:
一条语句内容;或者
一段语句内容;或者
多段语句内容。
优选的,该语义匹配方法,其中,所述步骤S4中,处理得到所述向量相似度的方法包括:
采用余弦相似度计算方法直接度量得到所述向量相似度;
或者
首先计算得到所述第一语句向量与对应的所述第二语句向量之间的向量距离,随后将所述向量距离转换为对应的所述向量相似度。
一种智能设备,其中,采用上述的语义匹配方法。
上述技术方案的有益效果是:提供一种语义匹配方法,能够解决传统语义匹配需要事先人工撰写大量的语义句式规则,降低语义匹配操作的复杂度,并且大幅提升语义匹配的准确度。
附图说明
图1是本发明的较佳的实施例中,一种语义匹配方法的总体流程示意图;
图2是本发明的较佳的实施例中,建立关联于规则语义句式的索引的流程示意图;
图3是本发明的较佳的实施例中,以每个字为索引单元建立索引的流程示意图;
图4是本发明的较佳的实施例中,根据待解析语句匹配得到至少一个规则语义句式的流程示意图;
图5是本发明的较佳的实施例中,计算得到第一语句向量的流程示意图;
图6是本发明的较佳的实施例中,计算得到第二语句向量的流程示意图;
图7是本发明的较佳的实施例中,训练形成向量处理模型的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种语义分配方法,适用于智能设备,例如适用于移动终端,或者适用于智能机器人等其他智能设备。该方法中,于上述智能设备中预设多个规则语义句式。每个规则语义句式均具有相同的预设格式。该预设格式在下文中会详述。
则本发明的较佳的实施例中,如图1所示,上述语义分配方法具体包括:
步骤S1,根据使用者的输入获取待解析语句;
步骤S2,根据待解析语句匹配得到至少一个规则语义句式;
步骤S3,处理得到待解析语句的第一语句向量,以及分别处理得到匹配得到的至少一个规则语义句式的第二语句向量;
步骤S4,分别根据第一语句向量和每个第二语句向量,处理得到待解析语句与每个匹配得到的规则语义句式之间的向量相似度;
步骤S5,分别将每个向量相似度与一预设的相似度阈值进行比较,并返回大于相似度阈值的向量相似度所对应的规则语义句式的语义信息,以作为待解析语句的语义。
在一个具体实施例中,首先根据使用者的输入获取待解析语句。使用者的输入方式可以为通过设置在智能设备上的拾音器(例如麦克风)输入一句自然语言,则智能设备会将使用者输入的自然语言作为待解析语句。
在该实施例中,在得到上述待解析语句之后,根据该待解析语句匹配得到至少一个规则语义句式。该匹配规则大致为:将待解析语句转换为上述预设格式,然后将经过转换的待解析语句分别与上述规则语义句式进行匹配,得到相匹配的至少一个规则语义句式。上述过程在下文中会详述。
在该实施例中,匹配得到上述至少一个规则语义句式之后,分别处理得到待解析语句的第一语句向量,以及处理得到每个匹配得到的规则语义句式的第二语句向量,并且分别计算得到第一语句向量分别与每个第二语句向量之间的向量的相似度,将这个相似度作为该规则语义句式相对于待解析语句的相似度。
最后,根据该相似度,确定最终匹配该待解析语句的规则语义句式,并将该规则语义句式的语义信息作为该待解析语句的语义信息,从而可以进行后续的语音交互操作。
本发明的较佳的实施例中,根据向量相似度没有找到相匹配的规则语义句式(所有规则语义句式的向量相似度均不高于上述相似度阈值),则直接返回交互失败的提示信息。
本发明的较佳的实施例中,在上述步骤之前预先设置上述规则语义句式,并且建立关联于规则语义句式的索引的方法如图2所示,具体包括:
步骤A1,分别以使用者预先设置的不同类型的标签替代规则语义句式中相应类型的关键信息;
步骤A2,将每个标签视为一个字,并以每个字为一个索引单元,建立对于规则语义句式的索引。
换言之,本发明的较佳的实施例中,上述预设格式即为以规则语义句式中的每个字作为一个索引单元形成的语句格式。具体地,使用者首先预设多个不同类型的标签,然后以不同类型的标签替代规则语义句式中相应的内容,最后将每个标签视为一个字,并且以一个字作为一个索引单元建立对于规则语义句式的索引。
例如:对于飞机票、火车票、汽车票等类似的领域,可以设定一个标签名为“起始地”,设定另一个标签名为“目的地”,以及设定一个标签名为“出发时间”。
则对于一个规则语义句式:某时某刻(出发时间)从起始地到目的地,则可以转换成预设格式的规则语义句式,即出发时间+从+起始地+到+目的地。
进一步地,本发明的较佳的实施例中,如图3所示,上述步骤A2具体包括:
步骤A21,采用哈希倒排索引方式罗列在所有规则语义句式中出现的索引单元;
步骤A22,在每个索引单元后分别链接关联于索引单元的每个规则语义句式的序号。
具体地,本发明的较佳的实施例中,采用哈希倒排索引方式将出现在所有规则语义句式中的所有索引单元罗列出来,并在每个索引单元后链接包括该索引单元的每个规则语义句式的序号,从而构成一个完整的规则语义句式的索引目录。
则在实际检索匹配的过程中,可以根据待解析语句中包括的索引单元,直接根据索引目录找到相匹配的所有规则语义句式。
本发明的较佳的实施例中,在执行步骤S2之前,首先以不同类型的标签替代待解析语句中相应类型的关键信息;
则上述步骤S2具体如图4所示,包括:
步骤S21,将每个标签视为一个字,并以待解析语句中的每个字作为一个检索单元,依据规则语义句式的索引,分别检索得到匹配于待解析语句的至少一个规则语义句式;
步骤S22,分别处理得到每个检索得到的规则语义句式与待解析语句之间的匹配度;
步骤S23,分别将关联于每个检索得到的规则语义句式的匹配度与一预设的匹配度阈值进行比较,保留大于匹配度阈值的匹配度所对应的至少一个规则语义句式;
步骤S24,输出被保留的至少一个规则语义句式,以作为匹配得到的规则语义句式。
具体地,本发明的较佳的实施例中,为了便于待解析语句和规则语义句式进行匹配,在匹配之前首先同样需要将待解析语句转换成上述预设格式,即:
首先,以不同类型的标签替换待解析语句中相应的关键信息。例如,对于一句待解析语句:15时30分从北京到上海的飞机,则这句可以被转换成:出发时间(15时30分)+从+出发地(北京)+到+目的地(上海)+的+交通工具(飞机)。其中出发时间、出发地、目的地和交通工具均为预先设置的标签。
随后,根据已经转换成预设格式的待解析语句中的每个字作为相应的索引单元,以在上述已经形成的索引目录中进行检索,从而得到所有相匹配的规则语义句式。具体地,可以根据一个待解析语句中的每个索引单元进行逐个检索,检索得到每个包括在待解析语句中的索引单元所关联的所有规则语义句式并输出。
本发明的较佳的实施例中,上述过程只是一个初步检索匹配的过程,该过程中检索得到的规则语义句式可能会非常多。为了进一步缩小匹配的范围,对检索得到的规则语义句式需要执行下述的处理:
计算得到每个规则语义句式和待解析语句的匹配度,并根据匹配度缩小匹配范围。例如,确定一个匹配度阈值,并保留匹配度高于该匹配度阈值的相应的规则语义句式。
本发明的较佳的实施例中,可以依照下述公式计算得到匹配度:
S=(S1+S2)/2; (1)
其中,S表示匹配度;
S1表示待解析语句与规则语义句式之间的匹配部分占待解析语句的比例;
S2表示待解析语句与规则语义句式之间的匹配部分占规则语义句式之间的比例。
具体地,所谓待解析语句与规则语义句式之间的匹配部分占待解析语句的比例,例如:待解析语句中包括索引单元1+2+3+4+5,相应地,相匹配的规则语义句式中包括索引单元1+3+4+6+7+8+9,则上述匹配部分(1,3,4)占待解析语句的比例即为3/5。
类似上文中所述,所谓待解析语句与规则语义句式之间的匹配部分占规则语义句式之间的比例,同样依据上述示例,匹配部分(1,3,4)占规则语义句式的比例即为3/7。
则依照上述公式(1),最终的匹配度S就为(3/5+3/7)/2=18/35。
本发明的较佳的实施例中,计算得到匹配度之后,将该匹配度与一预设的匹配度阈值进行比较:若该匹配度高于匹配度阈值,则保留相应的规则语义句式;反之,忽略相应的规则语义句式。
则经过上述处理,最终可以缩小匹配范围,保留至少一个规则语义句式。
本发明的较佳的实施例中,在执行上述语义匹配方法之前,预先训练形成一向量处理模型。该向量处理模型用于处理得到不同词的词向量。
则本发明的较佳的实施例中,上述步骤S3可以被划分为计算得到第一语句向量的部分,以及计算得到第二语句向量的部分。
本发明的较佳的实施例中,如图5所示,上述计算得到第一语句向量的方法具体包括:
步骤S31a,将一条待解析语句进行分词处理;
步骤S32a,将经过分词处理的待解析语句中的每个词输入至向量处理模型中,以分别得到关联于每个词的词向量;
步骤S33a,根据所有词向量处理得到待解析语句的第一语句向量。
具体地,本发明的较佳的实施例中,所谓分词处理,是指将一条待解析语句划分成不同的词语,即将一条待解析语句转换成由不同的词语构成的组合结构。例如:从北京到上海的飞机,可以被划分为从+北京+到+上海+的+飞机。上述分词的规则在现有技术中已有较多实现方式,在此不再赘述。
本发明的较佳的实施例中,经过分词的待解析语句可以为在词与词之间添加特殊标记的语句,例如“从’北京’到’上海’的’飞机”。两个特殊标记之间的即为一个词。
本发明的较佳的实施例中,经过分词处理后,将待解析语句中的每个词都放入训练形成的向量处理模型中,作为该模型的输入量,以处理得到每个词的词向量。
最后,本发明的较佳的实施例中,将每个词的词向量组合形成上述待解析语句的第一语句向量。
本发明的较佳的实施例中,类似上文中处理得到第一语句向量的方法,上述步骤S3中,处理得到第二语句向量的方法如图6所示,具体包括:
步骤S31b,将一条规则语义句式进行分词处理;
步骤S32b,将经过分词处理的规则语义句式中的每个词输入至向量处理模型中,以分别得到关联于每个词的词向量;
步骤S33b,根据所有词向量处理得到规则语义句式的第二语句向量。
上述过程与上述步骤S31a-S33a类似,在此不再赘述。
本发明的较佳的实施例中,训练形成向量处理模型的方法包括:
步骤B1,获取预设的多个语料信息;
步骤B2,分别对每个语料信息进行分词处理;
步骤B3,分别将每个经过分词处理的语料信息作为向量处理模型的输入,根据向量处理模型输出对应不同词的词向量;
步骤B4,经过多个语料信息的训练,最终训练形成向量处理模型。
具体地,本发明的较佳的实施例中,上述每个语料信息中包括:一条语句内容;或者一段语句内容;或者多段语句内容。例如,从网络上随机搜索得到的一句话,或者一段话,或者一整篇文章。由于训练样本的数量决定了向量处理模型的准确程度,即训练样本越多,向量处理模型越精确。因此,可以在网络上随机搜索大量的语料信息,并作为训练向量处理模型的输入量。
本发明的较佳的实施例中,同样地,对每个语料信息进行分词处理,包括在语料信息中的不同的词语输入到神经网络中,经过神经网络的处理得到相应的输出量。最终经过大量的语料信息中包括的词的训练,得到训练形成的向量处理模型。上述训练过程在现有技术中存在较多的实现方式,在此不再展开。
本发明的较佳的实施例中,上述步骤S4中,处理得到向量相似度的方法包括:
采用余弦相似度计算方法,根据上述第一语句向量和相应的第二语句向量,直接度量得到向量相似度;
或者
首先计算得到第一语句向量与对应的第二语句向量之间的向量距离,随后将向量距离转换为对应的向量相似度。
本发明的较佳的实施例中,如上文中所述,在计算得到上述待解析语句的第一语句向量和对应的一个规则语义句式的第二语句向量的相似度之后,判断该向量相似度是否大于一预设的相似度阈值,并将向量相似度大于该相似度阈值的对应的规则语义句式的语义信息作为该待解析语句的语义信息,以作为依据进行后续的信息交互处理。
本发明的一个较佳的实施例中,在信息交互的过程中,最佳的语义识别结果应该为一个确定的结果。而在上述过程中,可能存在多个规则语义句式的向量相似度大于相似度阈值而被保留。此时需要根据向量相似度进行排列,并获取向量相似度最高的一个规则语义句式,并将其语义信息作为待解析语句的语义信息。
本发明的另一个较佳的实施例中,在信息交互的过程中,智能设备自动识别出的最佳选项可能并不是使用者所需的结果,因此可以允许存在多个语义识别结果供使用者选择。例如,在上述过程中,预先设定一个选项数目,例如4个选项。随后判断通过向量相似度的判断被保留的规则语义句式的数目:若大于4个,则保留向量相似度最高的四个规则语义句式;若不大于4个,则全部保留。随后将这些被保留的规则语义句式通过选项的形式显示,以供使用者选择。最后将被使用者选中的规则语义句式的语义信息作为待解析语句的语义信息,以进行后续的交互处理。
本发明的较佳的实施例中,还提供一种智能设备,其中采用上文中所述的语义匹配方法。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种语义匹配方法,适用于智能设备;其特征在于,于所述智能设备中预设多个规则语义句式,还包括:
步骤S1,根据使用者的输入获取待解析语句;
步骤S2,根据所述待解析语句匹配得到至少一个所述规则语义句式;
步骤S3,处理得到所述待解析语句的第一语句向量,以及分别处理得到匹配得到的至少一个所述规则语义句式的第二语句向量;
步骤S4,分别根据所述第一语句向量和每个所述第二语句向量,处理得到所述待解析语句与每个匹配得到的所述规则语义句式之间的向量相似度;
步骤S5,分别将每个所述向量相似度与一预设的相似度阈值进行比较,并返回大于所述相似度阈值的所述向量相似度所对应的所述规则语义句式的语义信息,以作为所述待解析语句的语义。
2.如权利要求1所述的语义匹配方法,其特征在于,预设所述规则语义句式,并建立关联于所述规则语义句式的索引的方法包括:
步骤A1,分别以使用者预先设置的不同类型的标签替代所述规则语义句式中相应类型的关键信息;
步骤A2,将每个所述标签视为一个字,并以每个字为一个索引单元,建立对于所述规则语义句式的索引。
3.如权利要求2所述的语义匹配方法,其特征在于,所述步骤A2具体包括:
步骤A21,采用哈希倒排索引方式罗列在所有所述规则语义句式中出现的所述索引单元;
步骤A22,在每个所述索引单元后分别链接关联于所述索引单元的每个所述规则语义句式的序号。
4.如权利要求2所述的语义匹配方法,其特征在于,在执行所述步骤S2之前,首先以不同类型的所述标签替代所述待解析语句中相应类型的关键信息;
所述步骤S2具体包括:
步骤S21,将每个所述标签视为一个字,并以所述待解析语句中的每个字作为一个检索单元,依据所述规则语义句式的所述索引,分别检索得到匹配于所述待解析语句的至少一个所述规则语义句式;
步骤S22,分别处理得到每个检索得到的所述规则语义句式与所述待解析语句之间的匹配度;
步骤S23,分别将关联于每个检索得到的所述规则语义句式的所述匹配度与一预设的匹配度阈值进行比较,保留大于所述匹配度阈值的所述匹配度所对应的至少一个所述规则语义句式;
步骤S24,输出被保留的至少一个所述规则语义句式,以作为匹配得到的所述规则语义句式。
5.如权利要求4所述的语义匹配方法,其特征在于,所述步骤S22中,依照下述公式计算得到所述匹配度:
S=(S1+S2)/2;
其中,S表示所述匹配度;
S1表示所述待解析语句与所述规则语义句式之间的匹配部分占所述待解析语句的比例;
S2表示所述待解析语句与所述规则语义句式之间的匹配部分占所述规则语义句式之间的比例。
6.如权利要求1所述的语义匹配方法,其特征在于,预先训练形成一向量处理模型;
所述步骤S3中,计算得到所述第一语句向量的方法包括:
步骤S31a,将一条所述待解析语句进行分词处理;
步骤S32a,将经过所述分词处理的所述待解析语句中的每个词输入至所述向量处理模型中,以分别得到关联于每个词的词向量;
步骤S33a,根据所有所述词向量处理得到所述待解析语句的所述第一语句向量。
7.如权利要求1所述的语义匹配方法,其特征在于,预先训练形成一向量处理模型;
所述步骤S3中,计算得到所述第二语句向量的方法包括:
步骤S31b,将一条所述规则语义句式进行分词处理;
步骤S32b,将经过所述分词处理的所述规则语义句式中的每个词输入至所述向量处理模型中,以分别得到关联于每个词的词向量;
步骤S33b,根据所有所述词向量处理得到所述规则语义句式的所述第二语句向量。
8.如权利要求6或7所述的语义匹配方法,其特征在于,训练形成所述向量处理模型的方法包括:
步骤B1,获取预设的多个语料信息;
步骤B2,分别对每个所述语料信息进行分词处理;
步骤B3,分别将每个经过所述分词处理的所述语料信息作为所述向量处理模型的输入,根据所述向量处理模型输出对应不同词的所述词向量;
步骤B4,经过多个所述语料信息的训练,最终训练形成所述向量处理模型;
每个所述语料信息中包括:
一条语句内容;或者
一段语句内容;或者
多段语句内容。
9.如权利要求1所述的语义匹配方法,其特征在于,所述步骤S4中,处理得到所述向量相似度的方法包括:
采用余弦相似度计算方法直接度量得到所述向量相似度;
或者
首先计算得到所述第一语句向量与对应的所述第二语句向量之间的向量距离,随后将所述向量距离转换为对应的所述向量相似度。
10.一种智能设备,其特征在于,采用如权利要求1-9所述的语义匹配方法。
CN201610227718.3A 2016-04-12 2016-04-12 一种语义匹配方法及智能设备 Active CN107291783B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610227718.3A CN107291783B (zh) 2016-04-12 2016-04-12 一种语义匹配方法及智能设备
PCT/CN2017/080107 WO2017177901A1 (zh) 2016-04-12 2017-04-11 一种语义匹配方法及智能设备
TW106112235A TWI638274B (zh) 2016-04-12 2017-04-12 一種語義匹配方法及智能設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610227718.3A CN107291783B (zh) 2016-04-12 2016-04-12 一种语义匹配方法及智能设备

Publications (2)

Publication Number Publication Date
CN107291783A true CN107291783A (zh) 2017-10-24
CN107291783B CN107291783B (zh) 2021-04-30

Family

ID=60041419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610227718.3A Active CN107291783B (zh) 2016-04-12 2016-04-12 一种语义匹配方法及智能设备

Country Status (3)

Country Link
CN (1) CN107291783B (zh)
TW (1) TWI638274B (zh)
WO (1) WO2017177901A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109710915A (zh) * 2017-10-26 2019-05-03 华为技术有限公司 复述语句生成方法及装置
CN109841210A (zh) * 2017-11-27 2019-06-04 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
CN110489740A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 语义解析方法及相关产品
CN111104803A (zh) * 2019-12-31 2020-05-05 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111160041A (zh) * 2019-12-30 2020-05-15 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111478877A (zh) * 2019-01-24 2020-07-31 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
CN113919343A (zh) * 2021-09-26 2022-01-11 用友网络科技股份有限公司 分词方法及装置、意图触发方法及装置、可读存储介质
CN115883765A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种进行图像共享的虚拟客服应答方法、设备和存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
CN108763217A (zh) * 2018-06-01 2018-11-06 北京玄科技有限公司 基于多语义的集外词处理方法、智能问答方法及装置
CN109117474B (zh) * 2018-06-25 2022-05-03 广州多益网络股份有限公司 语句相似度的计算方法、装置及存储介质
CN110807329B (zh) * 2018-08-01 2024-10-01 中兴通讯股份有限公司 一种获取语义相似度的方法、装置、设备及可读存储介质
CN110909870B (zh) * 2018-09-14 2022-12-09 中科寒武纪科技股份有限公司 训练装置及方法
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN109857846B (zh) * 2019-01-07 2023-06-20 创新先进技术有限公司 用户问句与知识点的匹配方法和装置
TWI740086B (zh) * 2019-01-08 2021-09-21 安碁資訊股份有限公司 網域名稱辨識方法及網域名稱辨識裝置
CN109977382B (zh) * 2019-03-05 2022-12-16 安徽省泰岳祥升软件有限公司 诗句生成模型的训练方法、自动写诗方法及装置
CN109992788B (zh) * 2019-04-10 2023-08-29 鼎富智能科技有限公司 基于未登录词处理的深度文本匹配方法及装置
CN110348003B (zh) * 2019-05-22 2023-10-17 安徽省泰岳祥升软件有限公司 文本有效信息的抽取方法及装置
CN110413992A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种语义分析识别方法、系统、介质和设备
CN111221939B (zh) * 2019-11-22 2023-09-08 华中师范大学 评分方法、装置和电子设备
CN111427995B (zh) * 2020-02-26 2023-05-26 平安科技(深圳)有限公司 基于内部对抗机制的语义匹配方法、装置及存储介质
CN111368527B (zh) * 2020-02-28 2023-06-20 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111538810B (zh) * 2020-04-22 2024-04-09 斑马网络技术有限公司 数据生成方法、装置、电子设备及存储介质
CN111626059B (zh) * 2020-04-30 2022-07-26 联想(北京)有限公司 一种信息处理方法及装置
CN113255351B (zh) * 2021-06-22 2023-02-03 中国平安财产保险股份有限公司 语句意图识别方法、装置、计算机设备及存储介质
CN113722457B (zh) * 2021-08-11 2024-08-06 北京零秒科技有限公司 意图识别方法以及装置、存储介质、电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833555A (zh) * 2009-03-12 2010-09-15 富士通株式会社 信息提取方法和装置
CN104850539A (zh) * 2015-05-28 2015-08-19 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统
CN105354300A (zh) * 2015-11-05 2016-02-24 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI290684B (en) * 2003-05-09 2007-12-01 Webgenie Information Ltd Incremental thesaurus construction method
RU2487403C1 (ru) * 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答系统及方法
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
CN102880645B (zh) * 2012-08-24 2015-12-16 上海云叟网络科技有限公司 语义化的智能搜索方法
US20140101162A1 (en) * 2012-10-09 2014-04-10 Industrial Technology Research Institute Method and system for recommending semantic annotations
US10229190B2 (en) * 2013-12-31 2019-03-12 Samsung Electronics Co., Ltd. Latent semantic indexing in application classification
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
CN104166682B (zh) * 2014-07-21 2018-05-01 安徽华贞信息科技有限公司 一种基于组合理论的类自然语言的语义信息抽取方法及系统
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833555A (zh) * 2009-03-12 2010-09-15 富士通株式会社 信息提取方法和装置
CN104850539A (zh) * 2015-05-28 2015-08-19 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答系统
CN105354300A (zh) * 2015-11-05 2016-02-24 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586814B2 (en) 2017-10-26 2023-02-21 Huawei Technologies Co., Ltd. Paraphrase sentence generation method and apparatus
CN109710915A (zh) * 2017-10-26 2019-05-03 华为技术有限公司 复述语句生成方法及装置
CN109710915B (zh) * 2017-10-26 2021-02-23 华为技术有限公司 复述语句生成方法及装置
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN108304439B (zh) * 2017-10-30 2021-07-27 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109841210B (zh) * 2017-11-27 2024-02-20 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
CN109841210A (zh) * 2017-11-27 2019-06-04 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
CN111478877A (zh) * 2019-01-24 2020-07-31 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN111478877B (zh) * 2019-01-24 2022-08-02 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
CN110489740A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 语义解析方法及相关产品
CN110489740B (zh) * 2019-07-12 2023-10-24 深圳追一科技有限公司 语义解析方法及相关产品
CN111160041B (zh) * 2019-12-30 2024-02-13 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111160041A (zh) * 2019-12-30 2020-05-15 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111104803A (zh) * 2019-12-31 2020-05-05 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111104803B (zh) * 2019-12-31 2024-02-13 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN113919343B (zh) * 2021-09-26 2024-08-27 用友网络科技股份有限公司 分词方法及装置、意图触发方法及装置、可读存储介质
CN115883765A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种进行图像共享的虚拟客服应答方法、设备和存储介质
CN113919343A (zh) * 2021-09-26 2022-01-11 用友网络科技股份有限公司 分词方法及装置、意图触发方法及装置、可读存储介质

Also Published As

Publication number Publication date
TW201737120A (zh) 2017-10-16
TWI638274B (zh) 2018-10-11
CN107291783B (zh) 2021-04-30
WO2017177901A1 (zh) 2017-10-19

Similar Documents

Publication Publication Date Title
CN107291783A (zh) 一种语义匹配方法及智能设备
CN104933152B (zh) 命名实体识别方法及装置
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN106776544A (zh) 人物关系识别方法及装置和分词方法
CN107818164A (zh) 一种智能问答方法及其系统
US7689527B2 (en) Attribute extraction using limited training data
CN105608218A (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN106663129A (zh) 一种基于状态机上下文敏感多轮对话管理系统及方法
CN109657039B (zh) 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN111177310A (zh) 电力服务机器人智能场景会话方法及装置
CN106326303A (zh) 一种口语语义解析系统及方法
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及系统
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
CN110705217A (zh) 一种错别字检测方法、装置及计算机存储介质、电子设备
CN104239292B (zh) 一种获取专业词汇译文的方法
CN103310209A (zh) 识别图像中的字符串的方法和装置
CN111724766A (zh) 语种识别方法、相关设备及可读存储介质
CN111159456A (zh) 基于深度学习与传统特征的多尺度服装检索方法及系统
CN116340488A (zh) 面向开放域人机对话的技能推荐系统
CN110188352A (zh) 一种文本主题确定方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1237913

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant