CN107256258A - 语义表达式生成方法及装置 - Google Patents
语义表达式生成方法及装置 Download PDFInfo
- Publication number
- CN107256258A CN107256258A CN201710439647.8A CN201710439647A CN107256258A CN 107256258 A CN107256258 A CN 107256258A CN 201710439647 A CN201710439647 A CN 201710439647A CN 107256258 A CN107256258 A CN 107256258A
- Authority
- CN
- China
- Prior art keywords
- standard
- similar question
- asked
- question sentence
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种用于为知识库中的标准问生成语义表达式的方法,知识库包括多个标准问,每个标准问具有相关联的多个相似问句,该方法包括:针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成;针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成;针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,否则被标记为第二状态;以及删除所有状态为第二状态的语义表达式。
Description
技术领域
本发明涉及人机交互技术领域,尤其涉及一种用于为知识库中的标准问生成语义表达式的方法及装置。
背景技术
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。
智能问答系统是人机交互的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。为此,智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。
因此,如何高效地维护知识库至关重要。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
根据本发明的一方面,提供了一种用于为知识库中的标准问生成语义表达式的方法,该知识库包括多个标准问,每个标准问具有相关联的多个相似问句,该方法包括:
数据获取步骤,针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成;
语义表达式创建步骤,针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成;
检测步骤,针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,否则被标记为第二状态;以及
删除步骤,删除所有状态为第二状态的语义表达式。
根据本发明的另一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述方法的步骤。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
根据本发明的另一方面,提供了一种用于为知识库中的标准问生成语义表达式的装置,该知识库包括多个标准问,每个标准问具有相关联的多个相似问句,该装置包括:
数据获取模块,针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成;
语义表达式创建模块,针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成;
检测模块,针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,否则被标记为第二状态;以及
编辑模块,删除所有状态为第二状态的语义表达式。
根据本发明的方案,可以从普通的相似问句中自动生成语义表达式,语义表达式在语义匹配时具有较高的效率和准确率,提高了智能问答系统的性能。同时由于不无需要手工编写语义表达式,显著提高了语义表达式的生成效率,为高效、便捷地建立知识库提供了基础。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1是示出了根据本发明的一方面的用于为知识库中的标准问生成语义表达式的方法100的流程图;以及
图2示出了根据本发明的具体实施例的用于为知识库中的标准问生成语义表达式的方法的流程图。
图3是示出了根据本发明的一方面的用于为知识库中的标准问生成语义表达式的装置300的框图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本发明中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。
用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式。例如,若对于收音机的电台切换的标准问形式是“换一个电台”,那么用户可能使用的命令是“切换一个电台”,机器也需要能够识别用户表达的是同一个意思。
因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展问与标准问表达形式有略微差异,但是表达相同的含义。在用户输入用户问句后,主要依靠扩展问来实现用户问句与标准问的匹配。
作为示例,可以将用户问句与知识库中所有标准问的所有扩展问执行语义相似度计算,找出与该用户问句具有最高语义相似度的扩展问,若该最高语义相似度高出系统所设的阈值,则该扩展问所对应的标准问被认为是与该用户问句相匹配的标准问,进而将该标准问所对应的知识点中的答案反馈给用户。另一方面,若计算出的该最高语义相似度低于系统所设的该阈值,则认为标准问匹配失败。此时,可向用户反馈语义识别失败,提示用户可再次输入。
实践中,扩展问的一个形式是普通问句形式的相似问句。技术人员在不需要作特别的相关培训的情况下即可人工编写。相似问句在标准问匹配上效果较差,需要人工编写大量的相似问句,效率低下。
扩展问的另一种形式是语义表达式。一个标准问可以由若干语义表达式来表征。采用语义表达式进行标准问匹配效果较好,但是对编辑人员要求较高,效率也需要进一步提高。通过相似问句自动生成语义表达式,一直是个发展方向,但相似问句存在大量冗余信息,根据现有自动生成语义表达式技术得到的语义表达式难以直接使用,还需要人工修改,实际效率没有明显提高。
语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于“词类”,词类简单的理解即为一组有共性的词,这些词在语义上可以相似也可以不相似,这些词也可以被标注为重要或不重要。词类是对一组相关词的汇总,词类由词类名和一组相关词所组成。词类名是在这组相关词中具有标签作用的词,即词类的代表。一个词类中至少包含一个词(即词类本身)。
语义表达式与用户问句关系与传统的模板匹配有了很大的不同,在传统模板匹配中,模板和用户问句只是匹配与未匹配的关系,而语义表达式与用户问句之间关系是通过量化的值(相似度)来表示,同时这个量化的值与相似问句和用户问句之间的相似度是可以互相比较的。以下说明语义表达式的具体组成和符号的表示。
词类的表示([])
为区分表达式中的词与词类,规定词类必须出现在方括号“[]”中,方括号中出现的词类一般为“狭义词类”,但是也可通过配置系统参数以支持“广义词类”。词类是按照词的语义进行划分的,把一组相关的词组织在一起形成一个树状结构的词类库,在这个树状结构中的任意一个非叶子结点都称作一个词类(广义词类),其中直接包含词的第一级词类称为狭义词类。
下面是一些简单表达式的示例:
[飞信][如何][开通]
[介绍][彩信][业务]
[飞信]的[登录][方法]
[来电提醒][如何][收费]
或关系的表示(|)
在方括号中的词类可以通过“或”关系出现多次,这些“或”关系的词类会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是根据“或”的意义将语义表达式展开成多个简单表达式的过程。如:[彩铃][开通]的[方法|步骤]可展开成“[彩铃][开通]的[步骤]”和“[彩铃][开通]的[方法]”两个简单的语义表达式。
这类语义表达式的示例如下:
[彩铃][开通]的[方法|步骤]
[怎样][查询|知道][PUK码]
[退订|撤销|关闭|停用][IP|17951][国内长途优惠包]
[来电提醒][功能费|月租费|信息费|通信费]
非必要的表示(?)
在方括号中的词类可以在结尾加入“?”表示可出现也可以不出现,即非必要的关系,这种非必要关系的词类也同样会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是将语义表达式中含有非必要的词类(或词类的“或组合”)展开成包含和不包含这个词类的两个简单语义表达式的过程。如:[介绍][手机视频][军事栏目][内容][什么?]可展开成“[介绍][手机视频][军事栏目][内容]”和“[介绍][手机视频][军事栏目][内容][什么]”两个简单语义表达式。
这类语义表达式的示例如下:
[彩铃][取消]的[方法|步骤?]
[介绍][手机视频][军事栏目][内容][什么?]
[介绍][12580?][生活播报][品质生活版][免费][业务?]
[怎样][开通][移动数据|流量|上网][100元][套餐?][短信]
在本发明中,通过比较多个普通相似问句的分词结果,取交集的方式,获取最短语义表达式;通过跑错,验证语义表达式的有效性,并以语义表达式的有效性,筛选继续生成加长语义表达式所用的普通相似问句,并淘汰无效的语义表达式;通过多次反复循环,最终获得可实用的语义表达式。
图1是示出了根据本发明的一方面的用于为知识库中的标准问生成语义表达式的方法100的流程图。如图1所示,方法100可包括如下步骤:
步骤110:数据获取步骤
在该步骤中,针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成。
数据获取步骤可包括两个部分,首先是对每个标准问的每个相似问句执行分词处理,如前所述,每个标准问具有与之相关联的多个相似问句,对每个相似问句执行分词处理。这里的分词处理可采用任何已知的分词算法来完成,对此不再赘述。
分词后,每个标准问的每个相似问句被分为多个单词,然后每个单词由该单词所属的词类替换。由此,标准问的每个相似问句对应有一个分词结果,由此每个标准问获得与其多个相似问句相应的多个相似问句分词结果。
作为示例,一个标准问的6个相似问句的6个分词结果可以为:
[A][B][C][D][E][F][G]
[A][B][K][J][L][M]
[A][C][M][Q]
[D][K][M][Q]
[A][B][C][D]
[A][B][D]
其中的[A]、[B]、[C]、[D]、[E]、[F]、[G]、[H]、[J]、[K]都是分词结果中的词类。
步骤120:语义表达式创建步骤
在该步骤中,针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成。
在一实例中,针对每个标准问,从该标准问的多个相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组作为该标准问的一个语义表达式,然后从该标准问的未包括该词组的相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组继续作为该标准问的一个语义表达式,重复此过程直至该标准问下没有其余的相似问句分词结果或者剩余的相似问句分词结果之间没有达到该预定数目个词类的交集。
剩余的相似问句分词结果之间没有达到该预定数目个词类的交集,也就不再作为语义表达式的生成原料,这些相似问句分词结果对应的相似问句直接作为扩展问在后续使用。
上述组成词组的词类的预定数目可以大于等于1。即,词组也可以本身就是一个词类。
以上述标准问的6个相似问句的6个分词结果为例,假设组成每个词组的词类的预定数目为1,则该标准问的6个分词结果的交集中:[A]出现5次,[B]出现4次,[C]出现3次,[D]出现3次……
则词类[A]作为该标准问的语义表达式被保存。同时,未包括[A]的分词结果仅为[D][K][M][Q]。由于仅剩余一个分词结果,也就不可能再存在交集,所以生成语义表达式的过程结束。
再假设该组成每个词组的词类的预定数目为2,则该标准问的6个分词结果的交集中,[A][B]出现频率最高,则将[A][B]作为该标准问的一个语义表达式。未包括[A][B]的两个分词结果为[A][C][M][Q]和[D][K][M][Q],它们之间的交集为[M][Q],则[M][Q]也被保存作为该标准问的语义表达式。即,在该预定数目为2的情况下,生成了两个语义表达式[A][B]、和[M][Q]。
依照上述过程针对每个标准问生成语义表达式。较优地是,在该语义表达式创建步骤中,按照复杂度由低到高的顺序为各标准问创建语义表达式,在创建过程中,若为在后的标准问生成的语义表达式与在前的标准问的已生成语义表达式重复,则该重复的语义表达式不作为该在后的标准问的语义表达式保存。
假设针对前一个标准问创建的语义表达式包括[A][B],若在针对后续标准问生成的语义表达式也包括[A][B],则后续标准问的该语义表达式[A][B]不被保存。
实践中,复杂度基于标准问的字数,字数越少复杂度越低。字数相同时,带有“介绍”字样,或“介绍”同义词的标准问优先。
步骤130:检测步骤
在此步骤中,针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,例如状态True,否则被标记为第二状态,例如状态False。
实例中,针对每个相似问句,该执行标准问匹配处理包括将该相似问句与针对所有标准问生成的所有语义表达式执行语义相似度计算,并将该相似问句匹配至具有最高语义相似度且该最高语义相似度高于阈值的语义表达式。
此检测步骤是对上述初步建立的各标准问的语义表达式进行“跑错”的过程。此跑错的核心就是以每个标准问自身相关联的相似问句为测试样例来测试先前为该标准问创建的语义表达式是否可行,换言之,就是标准问的相似问句是否能够匹配至先前自动创建的语义表达式,进而由此匹配至该标准问。
如果标准问的至少一个相似问句能够匹配至先前为该标准问创建的一个语义表达式,则认为该语义表达式是可用的,该语义表达式可被标记为状态True。注意,针对某一标准问的某个相似问句的标准问匹配是在为所有标准问生成的所有语义表达式的范围内来执行的,即将该相似问句不仅与该标准问的所有语义表达式执行语义相似度计算,而且还与其他标准问的所有语义表达式执行语义相似度计算。由此,对于某个标准问的某个相似问句而言,该相似问句可能会被定位匹配至其他标准问的某个语义表达式,换言之,对于某个标准问的某个语义表达式而言,该语义表达式可能与其他标准问的相似问句相匹配。
如果一个标准问的先前创建的某一个语义表达式,该标准问的所有的相似问句都未能与该语义表达式相匹配,则即使有其他标准问的相似问句定位匹配至该语义表达式也,认为该语义表达式是无效的。所有被认为无效的语义表达式可被标记为状态False。
另一方面,在上述标准问匹配过程中,对于某个标准问的某个相似问句而言,若该相似问句被定位匹配至该标准问的任何一个语义表达式,则在一实例中可将这样的相似问句记为第四状态,例如状态False;否则若该相似问句未被定位匹配至该标准问的任何一个语义表达式,例如匹配失败(即未找到与之具有高于阈值语义相似度的语义表达式)或者被定位至其他标准问的某一个语义表达式(即与其他标准问的某一个语义表达式具有最大语义相似度,也称之为被其他标准问的该语义表达式“抢”),则将该相似问句记为第三状态,例如状态True。
步骤140:删除步骤
在此步骤中,删除所有状态为第二状态,例如状态False的语义表达式。
由此,为标准问所生成的语义表达式经删除后剩余的语义表达式即为该标准问的有效的语义表达式。
在一实施例中,在执行步骤140删除步骤之后,还包括步骤150:可再次针对所有标准问的所有相似问句,执行标准问匹配处理,然后若是有状态为第三状态的相似问句被匹配至与之相关联的标准问所属的语义表达式,则该相似问句的状态由第三状态改为第四状态。这是因为先前状态为False(即只会“抢”其他相似问句)的语义表达式被删除之后,有可能一些标记为第三状态(即被“抢”)的相似问句有可能被触发到自己对应的标准问下。
较优地,可循环执行所述语义表达式创建步骤、所述检测步骤、和所述删除步骤预定次数,其中在语义表达式创建步骤中用于组成词组的词类的所述预定数目随着循环依次递增,且在后续循环中只有状态为True的相似问句参与语义表达式创建。
换言之,在下一次循环中,在执行语义表达式创建时,使用比上一次循环中加1的词类数目来构建语义表达式。例如,假设循环执行3次,在第一次循环中,构成语义表达式的词组由1个词类组成;则在第二次循环中,构成语义表达式的词组由2个词类组成,在第三次循环中,构成语义表达式的词组由3个词类组成。
而且,后续循环中只有状态为True的相似问句参与语义表达式创建。例如在第一次循环中,从一个标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式。但是如前所述,在第一次循环中经过检测步骤之后,该标准问的一些相似问句的状态为True,另一些状态为False,则在第二次循环中,在执行语义表达式创建步骤时,仅使用状态为True的相似问句创建语义表达式。具体而言,从该标准问的状态为True的那些相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的语义表达式。
经过预订次数的这种循环,每次循环语义表达式的长度逐渐增加,为每个标准问创建出越来越准确、完善的语义表达式。图2示出了根据本发明的具体实施例的用于为知识库中的标准问生成语义表达式的方法的流程图。
较佳地,如果以上述预订次数的循环为一个例程,可重复执行此例程若干次,后续每次例程中,只有状态为True的相似问句参与语义表达式创建。换言之,只有第一个例程的第一次循环中的语义表达式创建步骤是所有的相似问句参与语义表达式创建,在第一个例程的后续所有循环中以及在后续例程的所有循环中都是只有状态为True的相似问句参与语义表达式创建。
最后,标记为True的相似问句可被加到对应标准问的“普通问句形式的扩展问”参与标准问匹配过程中的相似度计算。
上述循环和例程的执行如下:
步骤120~步骤140循环
i=i+1
}
k=k+1
}
其中,m为语义表达式长度下限;n为语义表达式长度上限;i为循环索引;j为例程执行次数,k为例程索引。
示例:
3条标准问:
开通彩铃;取消彩铃;介绍彩铃,其对应的相似问句如下:
“开通彩铃”的相似问句
我想用彩铃
如何开通彩铃
如何启用彩铃
帮我开通彩铃
帮我启用彩铃
介绍一下如何开通彩铃
介绍彩铃的开通方法
“取消彩铃”的相似问句
如何取消彩铃
如何关闭彩铃
帮我取消彩铃
帮我关闭彩铃
介绍一下如何取消彩铃
介绍彩铃的取消方法
我不想用彩铃了
“介绍彩铃”的相似问句
彩铃是什么
帮我介绍一下彩铃
介绍一下彩铃
彩铃?
设m=1,n=3,j=2
循环开始,i从下限1开始执行。
执行步骤120,生成语义表达式时,设定生成长度1,每条标准问都会生成语义表达式[彩铃],因为执行时带有“介绍”的标准问优先,所以,只有“介绍彩铃”能够保存模板[彩铃],其他几条因为保存时出现冲突,都不能保存语义表达式。这里的冲突即是指先前以有其他标准问保存了[彩铃]作为其语义表达式,后续的标准问则不能再将已被保存为其他标准问的语义表达式保存作为自己的语义表达式。
执行步骤130,“介绍彩铃”中相似问句“彩铃?”能够匹配语义表达式“[彩铃]”,相似问句“彩铃?”由此标记为“false”,语义表达式“[彩铃]”标记为“true”。其他标准问下的相似问句都标记为“true”。
执行步骤140,没有语义表达式被删除,结果和上一步一样。另一方面,如果没有相似问句“彩铃?”,则执行这一步时,语义表达式“[彩铃]”会被删掉。
第二次循环,i加1变成2
执行步骤120,三个标准问分别生成语义表达式:
“[开通][彩铃]”、“[启用][彩铃]”
“[取消][彩铃]”、“[关闭][彩铃]”
“[介绍][彩铃]”;
执行步骤130,“开通彩铃”的相似问句“我想用彩铃”、“介绍一下如何开通彩铃”、“介绍彩铃的开通方法”没有匹配任何一个语义表达式,标记为“true”,其他相似问句标记为“false”,语义表达式“[开通][彩铃]”、“[启用][彩铃]”标记为“true”;
“取消彩铃”的相似问句“我不想用彩铃了”、“介绍一下如何取消彩铃”、“介绍彩铃的取消方法”没有匹配任何一个语义表达式,标记为“true”,其他相似问句标记为“false”,语义表达式“[取消][彩铃]”、“[关闭][彩铃]”标记为“true”;
“介绍彩铃”的相似问句“彩铃是什么”没有匹配任何一个语义表达式,标记为“true”,其他相似问句标记为“false”,语义表达式“[介绍][彩铃]”、“彩铃”标记为true。
执行步骤140,没有语义表达式被删除,结果和上一步一样。
第三次循环,i=3
执行120:“开通彩铃”新增语义表达式[介绍][开通][彩铃];
“取消彩铃”新增语义表达式[介绍][取消][彩铃];
“介绍彩铃”没有生成新模板。
执行步骤130:“我想用彩铃”、“我不想用彩铃了”、“彩铃是什么”3个相似问句皆未能匹配各自的任何一个语义表达式,因此状态还是“true”,其他相似问句都是“false”,所有语义表达式也都被各自标准问下的某一个或多个相似问句所匹配,所以状态都是“true”。
执行步骤140,没有语义表达式被删除,结果和上一步一样。
三次循环作为一个例程执行完毕后,执行下一个例程,直至j=2个例程执行完毕。最终,为这三个标准问分别生成了语义表达式如下:
“开通彩铃”的语义表达式:“[开通][彩铃]”、“[启用][彩铃]”、[介绍][开通][彩铃];
“取消彩铃”的语义表达式:“[取消][彩铃]”、“[关闭][彩铃]”、“[介绍][取消][彩铃]”;
“介绍彩铃”的语义表达式:“[介绍][彩铃]”、“[彩铃]”
另外,相似问句“我想用彩铃”、“我不想用彩铃了”、“彩铃是什么”3可作为各自标准问的普通扩展问使用。此时利用所有相似问句作为测试样例跑错的正确率达到100%。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
图3是示出了根据本发明的一方面的用于为知识库中的标准问生成语义表达式的装置300的框图,该知识库包括多个标准问,每个标准问具有相关联的多个相似问句。
该装置300可包括数据获取模块310、语义表达式创建模块320、检测模块330、以及编辑模块340。数据获取模块310可用于针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成。
语义表达式创建模块320可针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成。该预定数目可大于等于1
作为实例,语义表达式创建模块320可针对每个标准问,从该标准问的多个相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组作为该标准问的一个语义表达式,然后从该标准问的未包括该词组的相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组继续作为该标准问的一个语义表达式,重复此过程直至该标准问下没有其余的相似问句分词结果或者剩余的相似问句分词结果之间没有达到所述预定数目个词类的交集。
剩余的相似问句分词结果之间没有达到所述预定数目个词类的交集,也就不再作为语义表达式的生成原料,这些相似问句分词结果对应的相似问句直接作为扩展问在后续使用。
作为示例,该复杂度可基于标准问的字数,字数越少复杂度越低。
较优地,语义表达式创建模块320可按照复杂度由低到高的顺序为各标准问创建语义表达式,在创建过程中,若为在后的标准问生成的语义表达式与在前的标准问的已生成语义表达式重复,则该重复的语义表达式不作为该在后的标准问的语义表达式保存。
检测模块330可针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,例如状态True,否则被标记为第二状态,例如状态False。
作为实例,检测模块330可包括语义相似度计算单元331,针对每个相似问句,语义相似度计算单元331可将该相似问句与针对所有标准问生成的所有语义表达式执行语义相似度计算,并将该相似问句匹配至具有最高语义相似度且该最高语义相似度高于阈值的语义表达式。
检测模块330的检测步骤是对上述初步建立的各标准问的语义表达式进行“跑错”的过程。此跑错的核心就是以每个标准问自身相关联的相似问句为测试样例来测试先前为该标准问创建的语义表达式是否可行,换言之,就是标准问的相似问句是否能够匹配至先前自动创建的语义表达式,进而由此匹配至该标准问。
如果标准问的至少一个相似问句能够匹配至先前为该标准问创建的一个语义表达式,则认为该语义表达式是可用的,该语义表达式可被标记为状态True。注意,针对某一标准问的某个相似问句的标准问匹配是在为所有标准问生成的所有语义表达式的范围内来执行的,即将该相似问句不仅与该标准问的所有语义表达式执行语义相似度计算,而且还与其他标准问的所有语义表达式执行语义相似度计算。由此,对于某个标准问的某个相似问句而言,该相似问句可能会被定位匹配至其他标准问的某个语义表达式,换言之,对于某个标准问的某个语义表达式而言,该语义表达式可能与其他标准问的相似问句相匹配。
如果一个标准问的先前创建的某一个语义表达式,该标准问的所有的相似问句都未能与该语义表达式相匹配,则即使有其他标准问的相似问句定位匹配至该语义表达式也,认为该语义表达式是无效的。所有被认为无效的语义表达式可被标记为状态False。
最后,编辑模块340可删除所有状态为False的语义表达式。剩余的语义表达式即为获得的有效语义表达式。
进一步地,检测模块330还可包括状态标记单元332,用于在语义相似度计算单元331执行标准问匹配处理之后,对于每个标准问的每个相似问句,判断该相似问句是否被匹配至与之相关联的标准问所属的语义表达式,若是将该相似问句标记为第四状态,例如状态False,否则若该相似问句未被定位匹配至该标准问的任何一个语义表达式,例如匹配失败(即未找到与之具有高于阈值语义相似度的语义表达式)或者被定位至其他标准问的某一个语义表达式(即与其他标准问的某一个语义表达式具有最大语义相似度,也称之为被其他标准问的该语义表达式“抢”),将该相似问句标记为第三状态,例如状态True。
在此实例中,语义表达式创建模块320、检测模块330、和编辑模块340依次循环执行所述语义表达式创建、所述检测、和所述删除的步骤预定次数,其中,语义表达式创建模块330用来组成所述词组的词类的所述预定数目随着循环依次递增,换言之,在下一次循环中,在执行语义表达式创建时,使用比上一次循环中加1的词类数目来构建语义表达式。例如,假设循环执行3次,在第一次循环中,构成语义表达式的词组由1个词类组成;则在第二次循环中,构成语义表达式的词组由2个词类组成,在第三次循环中,构成语义表达式的词组由3个词类组成。且在后续循环中只有状态为True的相似问句被所述语义表达式创建模块用来参与语义表达式创建。
经过预订次数的这种循环,每次循环语义表达式的长度逐渐增加,为每个标准问创建出越来越准确、完善的语义表达式。
在每个循环周期中,在编辑模块340执行删除的步骤之后,检测模块330可立即再次针对所有标准问的所有相似问句,执行标准问匹配处理,然后若是有状态为第三状态的相似问句被匹配至与之相关联的标准问所属的语义表达式,则其状态被所述状态标记单元由第三状态改为第四状态。这是因为先前状态为False(即只会“抢”其他相似问句)的语义表达式被删除之后,有可能一些标记为第三状态(即被“抢”)的相似问句有可能被触发到自己对应的标准问下。
在一进一步的实例中,以该预定次数的循环为一个例程,语义表达式创建模块320、检测模块330、和编辑模块340重复执行所述例程若干次,后续每次例程中,只有状态为True的相似问句参与语义表达式创建。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行所述计算机程序时实现上述方法中的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
其中,计算机设备、计算机可读存储介质以及用于为知识库中的标准问生成语义表达式的装置的具体实现方式和技术效果均可参见上述用于为知识库中的标准问生成语义表达式的方法的实施例,在此不再赘述。
根据本发明的方案,可以从普通的相似问句中自动生成语义表达式,语义表达式在语义匹配时具有较高的效率和准确率,提高了智能问答系统的性能。同时由于不无需要手工编写语义表达式,显著提高了语义表达式的生成效率,为高效、便捷地建立知识库提供了基础。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
Claims (20)
1.一种用于为知识库中的标准问生成语义表达式的方法,所述知识库包括多个标准问,每个标准问具有相关联的多个相似问句,所述方法包括:
数据获取步骤,针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成;
语义表达式创建步骤,针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成;
检测步骤,针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,否则被标记为第二状态;以及
删除步骤,删除所有状态为第二状态的语义表达式。
2.如权利要求1所述的方法,其特征在于,在所述语义表达式创建步骤中,针对每个标准问,从该标准问的多个相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组作为该标准问的一个语义表达式,然后从该标准问的未包括该词组的相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组继续作为该标准问的一个语义表达式,重复此过程直至该标准问下没有其余的相似问句分词结果或者剩余的相似问句分词结果之间没有达到所述预定数目个词类的交集。
3.如权利要求1所述的方法,其特征在于,在所述检测步骤中,针对每个相似问句,所述执行标准问匹配处理包括将该相似问句与针对所有标准问生成的所有语义表达式执行语义相似度计算,并将该相似问句匹配至具有最高语义相似度且该最高语义相似度高于阈值的语义表达式。
4.如权利要求1所述的方法,其特征在于,所述检测步骤还包括:
在执行所述标准问匹配处理之后,对于每个标准问的每个相似问句,判断该相似问句是否被匹配至与之相关联的标准问所属的语义表达式,若是将该相似问句标记为第四状态,否则将该相似问句标记为第三状态,
其中,所述方法还包括循环执行所述语义表达式创建步骤、所述检测步骤、和所述删除步骤预定次数,其中,所述语义表达式创建步骤中组成所述词组的词类的所述预定数目随着循环依次递增,且在后续循环中只有状态为第三状态的相似问句参与语义表达式创建。
5.如权利要求4所述的方法,其特征在于,在每个循环周期中,在执行所述删除步骤之后,再次针对所有标准问的所有相似问句,执行标准问匹配处理,然后若是有状态为第三状态的相似问句被匹配至与之相关联的标准问所属的语义表达式,则该相似问句的状态由第三状态改为第四状态。
6.如权利要求4所述的方法,其特征在于,以所述预定次数的循环为一个例程,重复执行所述例程若干次,后续每次例程中,只有状态为第三状态的相似问句参与语义表达式创建。
7.如权利要求1所述的方法,其特征在于,所述预定数目大于等于1。
8.如权利要求1所述的方法,其特征在于,在所述语义表达式创建步骤中,按照复杂度由低到高的顺序为各标准问创建语义表达式,在创建过程中,若为在后的标准问生成的语义表达式与在前的标准问的已生成语义表达式重复,则该重复的语义表达式不作为该在后的标准问的语义表达式保存。
9.如权利要求8所述的方法,其特征在于,所述复杂度基于标准问的字数,字数越少复杂度越低。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述方法的步骤。
11.一种用于为知识库中的标准问生成语义表达式的装置,所述知识库包括多个标准问,每个标准问具有相关联的多个相似问句,所述装置包括:
数据获取模块,针对每个标准问获得与其多个相似问句相应的多个相似问句分词结果,其中每个相似问句分词结果由对应相似问句的各单词所属的词类组成;
语义表达式创建模块,针对每个标准问,从该标准问的多个相似问句分词结果的交集中依据词组出现的频率选择词组以构成该标准问的至少一个语义表达式,每个词组由预定数目个词类组成;
检测模块,针对所有标准问的所有相似问句,执行标准问匹配处理,对于为每个标准问创建的每个语义表达式,判断该语义表达式是否被匹配至其标准问的至少一个相似问句,若是,则该语义表达式被标记为第一状态,否则被标记为第二状态;以及
编辑模块,删除所有状态为第二状态的语义表达式。
12.如权利要求11所述的装置,其特征在于,所述语义表达式创建模块针对每个标准问,从该标准问的多个相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组作为该标准问的一个语义表达式,然后从该标准问的未包括该词组的相似问句分词结果的交集中选择出现频率最高的词组,将选出的词组继续作为该标准问的一个语义表达式,重复此过程直至该标准问下没有其余的相似问句分词结果或者剩余的相似问句分词结果之间没有达到所述预定数目个词类的交集。
13.如权利要求11所述的装置,其特征在于,所述检测模块包括语义相似度计算单元,针对每个相似问句,所述语义相似度计算单元将该相似问句与针对所有标准问生成的所有语义表达式执行语义相似度计算,并将该相似问句匹配至具有最高语义相似度且该最高语义相似度高于阈值的语义表达式。
14.如权利要求11所述的装置,其特征在于,所述检测模块还包括状态标记单元,用于在执行所述标准问匹配处理之后,对于每个标准问的每个相似问句,判断该相似问句是否被匹配至与之相关联的标准问所属的语义表达式,若是将该相似问句标记为第四状态,否则将该相似问句标记为第三状态,
其中,所述语义表达式创建模块、所述检测模块、和所述编辑模块依次循环执行所述语义表达式创建、所述检测、和所述删除的步骤预定次数,其中,所述语义表达式创建模块用来组成所述词组的词类的所述预定数目随着循环依次递增,且在后续循环中只有状态为第三状态的相似问句被所述语义表达式创建模块用来参与语义表达式创建。
15.如权利要求14所述的装置,其特征在于,在每个循环周期中,在所述编辑模块执行所述删除的步骤之后,所述检测模块再次针对所有标准问的所有相似问句,执行标准问匹配处理,然后若是有状态为第三状态的相似问句被匹配至与之相关联的标准问所属的语义表达式,则该相似问句的状态被所述状态标记单元由第三状态改为第四状态。
16.如权利要求14所述的装置,其特征在于,以所述预定次数的循环为一个例程,所述语义表达式创建模块、所述检测模块、和所述编辑模块重复执行所述例程若干次,后续每次例程中,只有状态为第三状态的相似问句参与语义表达式创建。
17.如权利要求11所述的装置,其特征在于,所述预定数目大于等于1。
18.如权利要求11所述的装置,其特征在于,所述语义表达式创建模块按照复杂度由低到高的顺序为各标准问创建语义表达式,在创建过程中,若为在后的标准问生成的语义表达式与在前的标准问的已生成语义表达式重复,则该重复的语义表达式不作为该在后的标准问的语义表达式保存。
19.如权利要求18所述的装置,其特征在于,所述复杂度基于标准问的字数,字数越少复杂度越低。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710439647.8A CN107256258B (zh) | 2017-06-12 | 2017-06-12 | 语义表达式生成方法及装置 |
US16/004,734 US10796096B2 (en) | 2017-06-12 | 2018-06-11 | Semantic expression generation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710439647.8A CN107256258B (zh) | 2017-06-12 | 2017-06-12 | 语义表达式生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107256258A true CN107256258A (zh) | 2017-10-17 |
CN107256258B CN107256258B (zh) | 2019-09-06 |
Family
ID=60024608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710439647.8A Active CN107256258B (zh) | 2017-06-12 | 2017-06-12 | 语义表达式生成方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10796096B2 (zh) |
CN (1) | CN107256258B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376847A (zh) * | 2018-08-31 | 2019-02-22 | 深圳壹账通智能科技有限公司 | 用户意图识别方法、装置、终端及计算机可读存储介质 |
CN110309509A (zh) * | 2019-06-28 | 2019-10-08 | 神思电子技术股份有限公司 | 一种语义知识库构建方法 |
CN111460169A (zh) * | 2020-03-27 | 2020-07-28 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111859942A (zh) * | 2020-07-02 | 2020-10-30 | 上海森亿医疗科技有限公司 | 医学名称归一化方法、装置、存储介质及终端 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740381B2 (en) * | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
CN110569342B (zh) * | 2019-08-15 | 2023-04-07 | 创新先进技术有限公司 | 问题匹配方法、装置、设备及计算机可读存储介质 |
US11379670B1 (en) * | 2019-09-30 | 2022-07-05 | Splunk, Inc. | Automatically populating responses using artificial intelligence |
CN110928991A (zh) * | 2019-11-20 | 2020-03-27 | 上海智臻智能网络科技股份有限公司 | 一种问答知识库的更新方法及其装置 |
CN111930911B (zh) * | 2020-08-12 | 2024-03-29 | 杭州东方通信软件技术有限公司 | 一种快速领域问答方法及其装置 |
CN112182180A (zh) * | 2020-09-27 | 2021-01-05 | 京东方科技集团股份有限公司 | 问答处理的方法、电子设备、计算机可读介质 |
CN113076431B (zh) * | 2021-04-28 | 2022-09-02 | 平安科技(深圳)有限公司 | 机器阅读理解的问答方法、装置、计算机设备及存储介质 |
CN114417164B (zh) * | 2022-01-24 | 2024-07-02 | 湖南大学 | 用户知识状态的追踪方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3845727B2 (ja) * | 2002-09-27 | 2006-11-15 | 独立行政法人情報通信研究機構 | 統計的検定を利用した質問応答システム |
JP5882241B2 (ja) * | 2013-01-08 | 2016-03-09 | 日本電信電話株式会社 | 質問応答用検索キーワード生成方法、装置、及びプログラム |
CN105677637A (zh) * | 2015-12-31 | 2016-06-15 | 上海智臻智能网络科技股份有限公司 | 智能问答系统中抽象语义库的更新方法及更新装置 |
CN105912600A (zh) * | 2016-04-05 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106528759A (zh) * | 2016-11-04 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 智能问答系统的信息处理方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941294B2 (en) * | 2000-08-28 | 2005-09-06 | Emotion, Inc. | Method and apparatus for digital media management, retrieval, and collaboration |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US20040064447A1 (en) * | 2002-09-27 | 2004-04-01 | Simske Steven J. | System and method for management of synonymic searching |
US8335683B2 (en) * | 2003-01-23 | 2012-12-18 | Microsoft Corporation | System for using statistical classifiers for spoken language understanding |
US7487094B1 (en) * | 2003-06-20 | 2009-02-03 | Utopy, Inc. | System and method of call classification with context modeling based on composite words |
US7496621B2 (en) * | 2004-07-14 | 2009-02-24 | International Business Machines Corporation | Method, program, and apparatus for natural language generation |
US7689411B2 (en) * | 2005-07-01 | 2010-03-30 | Xerox Corporation | Concept matching |
US8195683B2 (en) * | 2006-02-28 | 2012-06-05 | Ebay Inc. | Expansion of database search queries |
US8972435B2 (en) * | 2012-12-14 | 2015-03-03 | Microsoft Corporation | Automatic generation of semantically similar queries |
US9201945B1 (en) * | 2013-03-08 | 2015-12-01 | Google Inc. | Synonym identification based on categorical contexts |
US20140324808A1 (en) * | 2013-03-15 | 2014-10-30 | Sumeet Sandhu | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis |
CN104216913B (zh) * | 2013-06-04 | 2019-01-04 | Sap欧洲公司 | 问题回答方法、系统和计算机可读介质 |
-
2017
- 2017-06-12 CN CN201710439647.8A patent/CN107256258B/zh active Active
-
2018
- 2018-06-11 US US16/004,734 patent/US10796096B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3845727B2 (ja) * | 2002-09-27 | 2006-11-15 | 独立行政法人情報通信研究機構 | 統計的検定を利用した質問応答システム |
JP5882241B2 (ja) * | 2013-01-08 | 2016-03-09 | 日本電信電話株式会社 | 質問応答用検索キーワード生成方法、装置、及びプログラム |
CN105677637A (zh) * | 2015-12-31 | 2016-06-15 | 上海智臻智能网络科技股份有限公司 | 智能问答系统中抽象语义库的更新方法及更新装置 |
CN105912600A (zh) * | 2016-04-05 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106528759A (zh) * | 2016-11-04 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 智能问答系统的信息处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
周永梅等: "自动问答系统中的句子相似度算法的研究", 《计算机技术与发展》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376847A (zh) * | 2018-08-31 | 2019-02-22 | 深圳壹账通智能科技有限公司 | 用户意图识别方法、装置、终端及计算机可读存储介质 |
CN110309509A (zh) * | 2019-06-28 | 2019-10-08 | 神思电子技术股份有限公司 | 一种语义知识库构建方法 |
CN111460169A (zh) * | 2020-03-27 | 2020-07-28 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111460169B (zh) * | 2020-03-27 | 2023-06-02 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111859942A (zh) * | 2020-07-02 | 2020-10-30 | 上海森亿医疗科技有限公司 | 医学名称归一化方法、装置、存储介质及终端 |
CN111859942B (zh) * | 2020-07-02 | 2021-07-13 | 上海森亿医疗科技有限公司 | 医学名称归一化方法、装置、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
US10796096B2 (en) | 2020-10-06 |
CN107256258B (zh) | 2019-09-06 |
US20180357219A1 (en) | 2018-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256258B (zh) | 语义表达式生成方法及装置 | |
JP7346609B2 (ja) | 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法 | |
CN107229733A (zh) | 扩展问评价方法及装置 | |
Fu et al. | Natural answer generation with heterogeneous memory | |
CN106202056B (zh) | 中文分词场景库更新方法和系统 | |
Windiatmoko et al. | Developing FB chatbot based on deep learning using RASA framework for university enquiries | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
Wu et al. | Posting act tagging using transformation-based learning | |
Ruder et al. | Modular and parameter-efficient fine-tuning for nlp models | |
Liu et al. | EVEDIT: Event-based Knowledge Editing with Deductive Editing Boundaries | |
Barany et al. | Choosing units of analysis in temporal discourse | |
Lou et al. | Communicating with sentences: A multi-word naming game model | |
CN109033110A (zh) | 知识库中的扩展问质量测试方法和装置 | |
CN112784899A (zh) | 变电运维知识频繁模式挖掘方法、装置、设备及存储介质 | |
US8626688B2 (en) | Pattern matching device and method using non-deterministic finite automaton | |
CN116561273A (zh) | 文本问题的解答方法、装置、电子设备及存储介质 | |
Ben-David et al. | Domain adaptation from scratch | |
Mihaylov et al. | A Space Conversational Agent for Retrieving Lessons-learned and Expert Training | |
CN108062291A (zh) | 多媒体内容智能转换为词条结构的方法和系统 | |
Xia et al. | Generating Questions Based on Semi-Automated and End-to-End Neural Network. | |
İrsoy et al. | Dialogue act classification in group chats with DAG-LSTMs | |
Shi et al. | Relational facts extraction with splitting mechanism | |
CN118504714B (zh) | 一种对大语言模型的文本嵌入模块进行训练的方法和装置 | |
Maqsood | Evaluating newsQA dataset with ALBERT | |
Kainan et al. | Extraction method of judicial language entities based on regular expression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Semantic expression generation method and device Effective date of registration: 20230223 Granted publication date: 20190906 Pledgee: China Construction Bank Corporation Shanghai No.5 Sub-branch Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd. Registration number: Y2023980033272 |