CN107679039A - 用于确定语句意图的方法和装置 - Google Patents

用于确定语句意图的方法和装置 Download PDF

Info

Publication number
CN107679039A
CN107679039A CN201710966728.3A CN201710966728A CN107679039A CN 107679039 A CN107679039 A CN 107679039A CN 201710966728 A CN201710966728 A CN 201710966728A CN 107679039 A CN107679039 A CN 107679039A
Authority
CN
China
Prior art keywords
word
intention
sentence
trunk
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710966728.3A
Other languages
English (en)
Other versions
CN107679039B (zh
Inventor
戴祥鹰
林义明
郭辉
周辉
陈亮
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710966728.3A priority Critical patent/CN107679039B/zh
Publication of CN107679039A publication Critical patent/CN107679039A/zh
Application granted granted Critical
Publication of CN107679039B publication Critical patent/CN107679039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了用于确定语句意图的方法和装置。该方法的一具体实施方式包括:获取待确定意图的语句;生成主干词语序列,主干词语序列包括以下至少一项:语句中的主干词、由语句中相邻的主干词组成的词组、由语句中的相同词性的主干词中相邻的主干词组成的词组;确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于每个候选意图词在知识图谱中的扩展信息组成的扩展语句和语句的相似度关系,确定语句的意图词并将确定出的意图词对应的意图作为语句的意图。该实施方式提高了意图分析的效率。

Description

用于确定语句意图的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于确定语句意图的方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能的目标是搭建一个通用的对话系统,而自动问答系统作为与对话系统最接近的形态,一直是人工智能研究的重点方向。在自动问答系统中,问题意图分析至关重要。
现有的问题分析通常需要标注预先定义的特定领域的意图词集合,然后根据标注来构建提问语句中的实体与预定义的意图词集合的映射词典。
发明内容
本申请实施例的目的在于提出一种用于确定语句意图的方法和装置。
第一方面,本申请实施例提供了一种用于确定语句意图的方法,该方法包括:获取待确定意图的语句;生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在一些实施例中,生成主干词语序列包括:对待确定意图的语句进行切分并去掉停用词;标注切分后的词的词性;基于标注的词性提取主干词,生成候选主干词语序列,候选主干词语序列中主干词的顺序与待确定意图的语句中主干词的顺序一致;对于由候选主干词语序列中相邻的主干词组成的任一词组或者由候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在候选主干词语序列中将组成该词组的主干词替换成该词组;将替换后的候选主干词语序列确定为主干词语序列。
在一些实施例中,基于预设意图词集合和主干词语序列确定候选意图词集合包括:确定预设意图词集合中的预设意图词和主干词语序列中的主干词语在预设词向量模型中对应的词向量,预设词向量模型通过对待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;基于确定出的词向量,从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。
在一些实施例中,基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词包括:计算每个候选意图词对应的扩展语句与待确定意图的语句之间的相似度;将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词。
在一些实施例中,该方法还包括:预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。
在一些实施例中,待确定意图的语句包括:用户输入的待确定意图的语句;或从预设问答数据库中选取的待确定意图的语句,其中预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。
第二方面,本申请实施例提供了一种用于确定语句意图的装置,装置包括:语句获取模块,配置用于获取待确定意图的语句;词语生成模块,配置用于生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;候选意图词确定模块,配置用于基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;意图确定模块,配置用于基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在一些实施例中,词语生成模包括:分词单元,配置用于对待确定意图的语句进行切分并去掉停用词;标注单元,配置用于标注切分后的词的词性;提取单元,配置用于基于标注的词性提取主干词,生成候选主干词语序列,候选主干词语序列中主干词的顺序与待确定意图的语句中主干词的顺序一致;组合单元,配置用于对于由候选主干词语序列中相邻的主干词组成的任一词组或者由候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在候选主干词语序列中将组成该词组的主干词替换成该词组;主干词语生成单元,配置用于将替换后的候选主干词语序列确定为主干词语序列。
在一些实施例中,候选意图词确定模块包括:向量化单元,配置用于确定预设意图词集合中的预设意图词和主干词语序列中的主干词语在预设词向量模型中对应的词向量,预设词向量模型通过对待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;候选意图词确定单元,配置用于基于确定出的词向量,从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。
在一些实施例中,意图确定模块包括:相似度计算单元,配置用于计算每个候选意图词对应的扩展语句与待确定意图的语句之间的相似度;意图确定单元,配置用于将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。
在一些实施例中,装置还包括:预设意图词获取模块,配置用于预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。
在一些实施例中,待确定意图的语句包括:用户输入的待确定意图的语句;或从预设问答数据库中选取的待确定意图的语句,其中预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。
本申请实施例提供的用于确定语句意图的方法和装置,通过对待确定意图的语句进行处理来生成主干词语序列,而后基于从知识图谱中预先获取的预设意图词集合中的预设意图词与主干词语序列中的主干词语之间的相似度确定候选意图词集合,最后基于候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图,从而有效利用了知识图谱中丰富的属性/关系来挖掘语句的意图,提升了意图分析的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于确定语句意图的方法的一个实施例的流程图;
图3是根据本申请的用于确定语句意图的方法的一个应用场景的示意图;
图4是根据本申请的用于确定语句意图的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于确定语句意图的方法或用于确定语句意图的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如求助类应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持语句输入的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上输入的提问语句提供答案的智能问答服务器。智能问答服务器可以对接收到的提问语句等数据进行分析等处理,确定所提问语句的意图,并将符合该意图的答案反馈给终端设备。
需要说明的是,本申请实施例所提供的用于确定语句意图的方法一般由服务器105执行,相应地,用于确定语句意图的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于确定语句意图的方法的一个实施例的流程200。该用于确定语句意图的方法,包括以下步骤:
步骤201,获取待确定意图的语句。
在本实施例中,用于确定语句意图的方法运行于其上的电子设备(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式获取待确定意图的语句,其中,上述待确定意图的语句包含用于表达意图的词语。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例的一些可选的实现方式中,待确定意图的语句可以是用户通过终端输入的待确定意图的语句,例如,用户通过智能问答应用输入的提问语句。
在本实施例的一些可选的实现方式中,待确定意图的语句也可以是从预设问答数据库中获取的待确定意图的语句,其中,预设问答数据库包括至少一条由提问语句和回答语句组成的问答语句对。问答语句对可以是从互联网互动社区站点获取(例如,通过网络爬虫爬取)的语句对,互联网互动社区站点可包括通用站点(例如,百度知道、知乎等通用站点)和垂类站点(例如,马蜂窝、好大夫等垂类站点)。
在本实施例的一些可选的实现方式中,可对预设问答数据库中的问答数据对进行领域分类和内容过滤等预处理操作。
由于垂类站点是专注于某一领域的站点,因此领域分类主要针对来自通用站点的问答语句对进行处理。可通过多种方式对问答语句对进行领域分类,本领域的技术人员可以根据需要进行选择,例如,可以通过预设的领域分类模型进行领域分类,领域分类模型可通过对训练样本预先进行训练而生成,训练样本可通过对预先获取的各个领域的海量语句进行人工分类而获得。
内容过滤可包括敏感词(例如,黄反不良信息、广告等)过滤和无效回答(例如,仅包含语气词的回答,诸如“呵呵”等;或者非肯定回答,诸如“我也不知道啊”等)过滤,其中敏感词过滤可采用敏感词词典的方式,内容过滤可采用预设的神经网络模型的方式。上述内容过滤的各种方法是目前广泛研究和应用的公知技术,在此不做赘述。
步骤202,生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组。
在本实施例中,基于步骤201中得到的待确定意图的语句,上述电子设备(例如图1所示的服务器105)可从上述待确定意图的语句中提取主干词,然后基于主干词进行词组构建,进而生成主干词语序列。
在本实施例的一些可选的实现方式中,生成主干词语序列包括:首先,可以利用分词工具以词为单位对上述待确定意图的语句进行切分并去掉停用词(例如,标点符号、使用频率非常高的单个汉字等停用词);之后,利用词性标注工具标注切分后的词的词性(例如,动词、名词、形容词等);基于标注的词性提取主干词(主要为名词和动词),生成候选主干词语序列,候选主干词语序列中主干词的顺序与待确定意图的语句中主干词的顺序一致,以保证后续向量计算的准确性;然后,对于由候选主干词语序列中相邻的主干词组成的任一词组或者由候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与待确定意图的语句所属领域(用户输入的待确定意图的语句或者通用站点的待确定意图的语句可通过预设的领域分类模型确定)的知识图谱中的词语进行匹配,响应于匹配成功,在候选主干词语序列中将组成该词组的主干词替换成该词组;最后,将替换后的候选主干词语序列确定为主干词语序列。
以待确定意图的语句“我要去北京旅游,故宫门票价格是多少?”为例,进行分词并去除停用词之后,得到的候选主干词语序列为{北京,旅游,故宫,门票,价格},将相邻的主干词组成的任一词组(例如,门票价格)或相同词性的主干词中相邻的主干词组成的任一词组(例如,北京故宫)与该待确定意图的语句所属领域(即,旅游领域)的知识图谱中的词语进行匹配,其中“门票价格”和“北京旅游”匹配成功,最终得到的主干词语序列为{北京故宫,旅游,门票价格}。
若以词组为单位对上述待确定意图的语句进行切分,则可能获得如下的主干词语序列{北京,旅游,故宫,门票价格},从而得不到主干词语“北京故宫”。很显然,主干词语“北京故宫”与主干词“北京”、“故宫”相比,更贴近上述待确定意图的语句的真实意图。
由上可知,通过将待确定意图的语句按照语义的最小粒度(即,词)进行切分/去除停用词/提取主干词之后进行词组构建,与直接以词组为单位对待确定意图的语句进行切分相比,既避免了停用词/非主干词的干扰,又能够获得语义上相邻的词组(例如,词组“北京故宫”),使得主干词语序列更准确地体现待确定意图的语句的意图,因而提高了生成主干词序列的准确性。
步骤203,基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词。
在本实施例中,用于确定语句意图的方法运行于其上的电子设备上可以预先存储待确定意图的语句所属领域的预设意图词集合,预设意图词可以是从待确定意图的语句所属领域的知识图谱中的词语中提取的意图词。
在本实施例中,上述电子设备从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,并基于查找到的预设意图词生成候选意图词集合。
在本实施例的一些可选的实现方式中,预设意图词可以是从待确定意图的语句所属领域的知识图谱中的词语中提取的用于表达主要意图的意图词。例如,首先获取待确定意图的语句所属领域的知识图谱中的意图词,然后根据意图词在该领域的出现频次确定主要意图词。以小说领域为例,最新章节、阅读地址、作者就是问答场景中的主要意图词,而封面图则不属于主要意图词。
在本实施例的一些可选的实现方式中,基于预设意图词集合和主干词语序列确定候选意图词集合包括:上述电子设备首先确定预设意图词集合中的预设意图词和主干词语序列中的主干词语在预设词向量模型中对应的词向量,预设词向量模型可以通过对待确定意图的语句所属领域的语料库中的词语预先进行训练而生成,例如,利用word2vec工具(word2vec是Google在2013年年中开源的一款将词表征为实数值向量的工具)对语料库中的词语进行词向量训练而生成;然后,基于确定出的词向量,从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。
需要说明的是,利用词向量计算词语的相似度是目前广泛研究和应用的公知技术,在此不做赘述。
步骤204,基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在本实施例中,上述电子设备可以利用知识图谱(待确定意图的语句所属的领域的知识图谱)中丰富的属性/关系将每个候选意图词扩展为扩展语句,例如,基于候选意图词在知识图谱中的概念、定义、描述、属性值以及与其他词语之间关系等中的至少一种信息生成包含候选意图词的扩展语句;然后,基于上述扩展语句与待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在本实施例的一些可选的实现方式中,基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词包括:计算每个候选意图词对应的扩展语句与待确定意图的语句之间的相似度;将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词。
其中,扩展语句与待确定意图的语句的相似度可以通过如下步骤确定:分别对扩展语句和待确定意图的语句进行切词,之后按照切分后的词的权重分别计算扩展语句和待确定意图的语句的句向量,最后基于句向量之间的夹角确定扩展语句与待确定意图的语句之间的相似度。
此外,为了使确定的意图词与待确定意图的语句具有较好的关联性,可设置一意图阈值,响应于扩展语句与待确定意图的语句的相似度大于该意图阈值,将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词;反之,对待确定意图的语句不进行意图预测。
在本实施例的一些可选的实现方式中,将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词包括:将每个扩展语句与待确定意图的语句的相似度进行归一化处理,使得各扩展语句与待确定意图的语句的相似度之和为1;响应于与待确定意图的语句相似度最高的扩展语句的归一化后的相似度大于预设的意图阈值(例如,60%等),将该扩展语句对应的候选意图词确定为待确定意图的语句的意图词。由于各扩展语句与待确定意图的语句的相似度之和可能大于或小于1,通过归一化处理,在对至少两个待确定意图的语句进行意图词确认时,可采用统一的意图阈值确定待确定意图的语句的意图词,从而降低意图分析的难度并提高了意图分析的效率。
继续参见图3,图3是根据本实施例的用于确定语句意图的方法的应用场景的一个示意图。在图3的应用场景中,智能问答服务器可以先构建一个问答数据库,例如,通过爬取互联网互动社区站点的问答语句对、对爬取的问答数据对进行领域分类和数据过滤(去除包含黄反、广告以及无效回答的语句对)建立问答数据库;之后,从问答数据库中获取待确定意图的语句并生成主干词语序列;然后,基于从待确定意图的语句所属领域的知识图谱中预先获得的预设意图词集合和所生成的主干词语序列,确定候选意图词集合;最后,基于知识图谱生成与候选意图词集合中的每个候选意图词对应的扩展语句,并基于扩展语句与待确定意图的语句的相似度确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
本申请的上述实施例提供的方法通过对待确定意图的语句进行处理生成主干词语序列,而后基于从知识图谱中预先获取的预设意图词集合中的预设意图词和主干词语序列中的主干词语的相似度确定候选意图词集合,最后基于候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图,从而有效利用了知识图谱中丰富的属性/关系来挖掘语句的意图词,进而提高了意图分析的效率。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于确定语句意图的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于确定语句意图的装置400包括:语句获取模块401、词语生成模块402、候选意图词确定模块403和意图确定模块404。其中,语句获取模块401配置用于获取待确定意图的语句;词语生成模块402配置用于生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;候选意图词确定模块403配置用于基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;而意图确定模块404配置用于基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在本实施例的一些可选的实现方式中,词语生成模402包括分词单元、提取单元、组合单元和主干词语生成单元。其中,分词单元配置用于利用分词工具以词为单位对待确定意图的语句进行切分并去掉停用词(例如,标点符号、使用频率非常高的单个汉字等停用词);标注单元,配置用于利用词性标注工具标注切分后的词的词性(例如,动词、名词、形容词等);提取单元配置用于基于标注的词性提取主干词(主要为名词和动词),生成候选主干词语序列,候选主干词语序列中主干词的顺序与待确定意图的语句中主干词的顺序一致,以保证后续向量计算的准确性;组合单元配置用于对于由候选主干词语序列中相邻的主干词组成的任一词组或者由候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与待确定意图的语句所属领域(用户输入的待确定意图的语句或者通用站点的待确定意图的语句可通过预设的领域分类模型确定)的知识图谱中的词语进行匹配,响应于匹配成功,在候选主干词语序列中将组成该词组的主干词替换成该词组;主干词语生成单元配置用于将替换后的候选主干词语序列确定为主干词语序列。
在本实施例的一些可选的实现方式中,候选意图词确定模块403包括向量化单元和候选意图词确定单元。其中,向量化单元配置用于确定预设意图词集合中的预设意图词和主干词语序列中的主干词语在预设词向量模型中对应的词向量,预设词向量模型通过对待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;候选意图词确定单元配置用于基于确定出的词向量,从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。
在本实施例的一些可选的实现方式中,候选意图词确定模块403还包括预设意图词提取单元。其中,预设意图词提取单元配置用于从待确定意图的语句所属领域的知识图谱中的词语中提取的用于表达主要意图的意图词作为预设意图词。
在本实施例的一些可选的实现方式中,意图确定模块404包括相似度计算单元和意图确定单元。其中,相似度计算单元配置用于计算每个候选意图词对应的扩展语句与待确定意图的语句之间的相似度;意图确定单元配置用于将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在本实施例的一些可选的实现方式中,意图确定单元包括归一化处理子单元和意图确定子单元。其中,归一化处理子单元配置用于将每个扩展语句与待确定意图的语句的相似度进行归一化处理,使得各扩展语句与待确定意图的语句的相似度之和为1;意图确定子单元配置用于响应于与待确定意图的语句相似度最高的扩展语句的归一化后的相似度大于预设的意图阈值(例如,60%等),将该扩展语句对应的候选意图词确定为待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
在本实施例的一些可选的实现方式中,装置400还包括预设意图词获取模块。其中,预设意图词获取模块配置用于预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。
在本实施例的一些可选的实现方式中,待确定意图的语句可以是用户通过终端输入的待确定意图的语句,例如,用户通过智能问答应用输入的提问语句。
在本实施例的一些可选的实现方式中,待确定意图的语句也可以是从预设问答数据库中获取的待确定意图的语句,其中,预设问答数据库包括至少一条由提问语句和回答语句组成的问答语句对。
在本实施例的一些可选的实现方式中,可对预设问答数据库中的问答数据对进行领域分类和内容过滤等预处理操作。
应当理解,装置400中记载的诸模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置400及其中包含的模块,在此不再赘述。
本申请的上述实施例提供的用于确定语句意图的装置400,通过基于待确定意图的语句生成主干词语序列,并基于预设意图词集合和主干词语序列确定候选意图词集合,最后基于候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图,从而有效利用了知识图谱中丰富的属性/关系来挖掘语句的意图,进而提高了意图分析的效率。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备/服务器的计算机系统500的结构示意图。图5示出的终端设备/服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括语句获取模块、词语生成模块、候选意图词确定模块和意图确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,语句获取模块还可以被描述为“获取待确定意图的语句的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:基于待确定意图的语句生成主干词语序列,并基于预设意图词集合和主干词语序列确定候选意图词集合,最后基于候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种用于确定语句意图的方法,其特征在于,所述方法包括:
获取待确定意图的语句;
生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由所述待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;
基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,所述预设意图词为预先从所述待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;
基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系,确定所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。
2.根据权利要求1所述的方法,其特征在于,所述生成主干词语序列包括:
对所述待确定意图的语句进行切分并去掉停用词;
标注切分后的词的词性;
基于标注的词性提取主干词,生成候选主干词语序列,所述候选主干词语序列中主干词的顺序与所述待确定意图的语句中主干词的顺序一致;
对于由所述候选主干词语序列中相邻的主干词组成的任一词组或者由所述候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与所述待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在所述候选主干词语序列中将组成该词组的主干词替换成该词组;
将替换后的候选主干词语序列确定为主干词语序列。
3.根据权利要求2所述的方法,其特征在于,所述基于预设意图词集合和主干词语序列确定候选意图词集合包括:
确定所述预设意图词集合中的预设意图词和所述主干词语序列中的主干词语在预设词向量模型中对应的词向量,所述预设词向量模型通过对所述待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;
基于确定出的词向量,从所述预设意图词集合中查找与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。
4.根据权利要求3所述的方法,其特征在于,所述基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系确定所述待确定意图的语句的意图词包括:
计算每个候选意图词对应的扩展语句与所述待确定意图的语句之间的相似度;
将与所述待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为所述待确定意图的语句的意图词。
5.根据权利要求1-4之一所述的方法,其特征在于,所述方法还包括:
预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。
6.根据权利要求1-4之一所述的方法,其特征在于,所述待确定意图的语句包括:
用户输入的待确定意图的语句和/或从预设问答数据库中选取的待确定意图的语句,其中所述预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。
7.一种用于确定语句意图的装置,其特征在于,所述装置包括:
语句获取模块,配置用于获取待确定意图的语句;
词语生成模块,配置用于生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由所述待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;
候选意图词确定模块,配置用于基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,所述预设意图词为预先从所述待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;
意图确定模块,配置用于基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系,确定所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。
8.根据权利要求7所述的装置,其特征在于,所述词语生成模包括:
分词单元,配置用于对所述待确定意图的语句进行切分并去掉停用词;
标注单元,配置用于标注切分后的词的词性;
提取单元,配置用于基于标注的词性提取主干词,生成候选主干词语序列,所述候选主干词语序列中主干词的顺序与所述待确定意图的语句中主干词的顺序一致;
组合单元,配置用于对于由所述候选主干词语序列中相邻的主干词组成的任一词组或者由所述候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与所述待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在所述候选主干词语序列中将组成该词组的主干词替换成该词组;
主干词语生成单元,配置用于将替换后的候选主干词语序列确定为主干词语序列。
9.根据权利要求8所述的装置,其特征在于,所述候选意图词确定模块包括:
向量化单元,配置用于确定所述预设意图词集合中的预设意图词和所述主干词语序列中的主干词语在预设词向量模型中对应的词向量,所述预设词向量模型通过对所述待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;
候选意图词确定单元,配置用于基于确定出的词向量,从所述预设意图词集合中查找与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。
10.根据权利要求9所述的装置,其特征在于,所述意图确定模块包括:
相似度计算单元,配置用于计算每个候选意图词对应的扩展语句与所述待确定意图的语句之间的相似度;
意图确定单元,配置用于将与所述待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。
11.根据权利要求7-10之一所述的装置,其特征在于,所述装置还包括:
预设意图词获取模块,配置用于预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。
12.根据权利要求7-10之一所述的装置,其特征在于,所述待确定意图的语句包括:
用户输入的待确定意图的语句和/或从预设问答数据库中选取的待确定意图的语句,其中所述预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。
13.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201710966728.3A 2017-10-17 2017-10-17 用于确定语句意图的方法和装置 Active CN107679039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710966728.3A CN107679039B (zh) 2017-10-17 2017-10-17 用于确定语句意图的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710966728.3A CN107679039B (zh) 2017-10-17 2017-10-17 用于确定语句意图的方法和装置

Publications (2)

Publication Number Publication Date
CN107679039A true CN107679039A (zh) 2018-02-09
CN107679039B CN107679039B (zh) 2020-12-29

Family

ID=61141189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710966728.3A Active CN107679039B (zh) 2017-10-17 2017-10-17 用于确定语句意图的方法和装置

Country Status (1)

Country Link
CN (1) CN107679039B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446382A (zh) * 2018-03-20 2018-08-24 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108806671A (zh) * 2018-05-29 2018-11-13 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN108959247A (zh) * 2018-06-19 2018-12-07 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN108984666A (zh) * 2018-06-29 2018-12-11 阿里巴巴集团控股有限公司 数据处理方法、数据处理装置和服务器
CN109033075A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 意图匹配的方法、装置、存储介质和终端设备
CN109271494A (zh) * 2018-08-10 2019-01-25 西安交通大学 一种自动提取中文问答语句焦点的系统
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109522419A (zh) * 2018-11-15 2019-03-26 北京搜狗科技发展有限公司 会话信息补全方法及装置
CN109542247A (zh) * 2018-11-14 2019-03-29 腾讯科技(深圳)有限公司 句式推荐方法及装置、电子设备、存储介质
CN109871437A (zh) * 2018-11-30 2019-06-11 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN109992671A (zh) * 2019-04-10 2019-07-09 出门问问信息科技有限公司 意图识别方法、装置、设备及存储介质
CN110113422A (zh) * 2019-05-10 2019-08-09 南京硅基智能科技有限公司 一种基于云端的虚拟手机的意图识别方法及系统
CN110188169A (zh) * 2019-05-27 2019-08-30 深圳宇诺智能有限公司 一种基于简化标签的知识匹配方法、系统及设备
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110245334A (zh) * 2019-06-25 2019-09-17 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110413790A (zh) * 2019-08-02 2019-11-05 上海云绅智能科技有限公司 一种场景分类方法及装置
CN110753269A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 视频摘要生成方法、智能终端及存储介质
CN110955767A (zh) * 2019-12-04 2020-04-03 中国太平洋保险(集团)股份有限公司 一种机器人对话系统中生成意图候选集列表集合的算法及装置
CN111008309A (zh) * 2019-12-06 2020-04-14 北京百度网讯科技有限公司 查询方法及装置
CN111048073A (zh) * 2019-12-16 2020-04-21 北京明略软件系统有限公司 一种音频处理方法、装置、电子设备及可读存储介质
WO2020164336A1 (zh) * 2019-02-13 2020-08-20 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN111626059A (zh) * 2020-04-30 2020-09-04 联想(北京)有限公司 一种信息处理方法及装置
CN111897930A (zh) * 2020-06-13 2020-11-06 南京奥拓电子科技有限公司 一种自动问答方法与系统、智能设备及存储介质
CN112149425A (zh) * 2020-09-15 2020-12-29 深圳康佳电子科技有限公司 终端控制方法、装置、设备及计算机可读存储介质
CN112163087A (zh) * 2020-11-10 2021-01-01 山东比特智能科技股份有限公司 对话系统中意图冲突的解决方法、系统及装置
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112632234A (zh) * 2019-10-09 2021-04-09 科沃斯商用机器人有限公司 人机交互方法、装置、智能机器人和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
US7743046B2 (en) * 2005-04-20 2010-06-22 Tata Consultancy Services Ltd Cybernetic search with knowledge maps
US20100235340A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for knowledge research
CN104424216A (zh) * 2013-08-23 2015-03-18 佳能株式会社 用于意图挖掘的方法和设备
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN105843897A (zh) * 2016-03-23 2016-08-10 青岛海尔软件有限公司 一种面向垂直领域的智能问答系统
CN105912527A (zh) * 2016-04-19 2016-08-31 北京高地信息技术有限公司 根据自然语言输出答案的方法、装置及系统
CN106528531A (zh) * 2016-10-31 2017-03-22 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN106776564A (zh) * 2016-12-21 2017-05-31 张永成 一种基于知识图谱的语义识别方法及系统
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN107169010A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种推荐搜索关键词的确定方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743046B2 (en) * 2005-04-20 2010-06-22 Tata Consultancy Services Ltd Cybernetic search with knowledge maps
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
US20100235340A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation System and method for knowledge research
CN104424216A (zh) * 2013-08-23 2015-03-18 佳能株式会社 用于意图挖掘的方法和设备
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN105843897A (zh) * 2016-03-23 2016-08-10 青岛海尔软件有限公司 一种面向垂直领域的智能问答系统
CN105912527A (zh) * 2016-04-19 2016-08-31 北京高地信息技术有限公司 根据自然语言输出答案的方法、装置及系统
CN106528531A (zh) * 2016-10-31 2017-03-22 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN106776564A (zh) * 2016-12-21 2017-05-31 张永成 一种基于知识图谱的语义识别方法及系统
CN107169010A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种推荐搜索关键词的确定方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI HUAKANG 等: "An Approach for Intention Perception Based on Knowledge Network", 《2014 10TH INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRIDS》 *
PARK KINAM 等: "Extracting search intentions from web search logs", 《2010 2ND INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY CONVERGENCE AND SERVICES》 *
王元卓 等: "基于开放网络知识的信息检索与数据挖掘", 《计算机研究与发展》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446382A (zh) * 2018-03-20 2018-08-24 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108446382B (zh) * 2018-03-20 2019-10-18 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108806671B (zh) * 2018-05-29 2019-06-28 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN108806671A (zh) * 2018-05-29 2018-11-13 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN108959247A (zh) * 2018-06-19 2018-12-07 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN108959247B (zh) * 2018-06-19 2022-09-09 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN108984666A (zh) * 2018-06-29 2018-12-11 阿里巴巴集团控股有限公司 数据处理方法、数据处理装置和服务器
CN109033075A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 意图匹配的方法、装置、存储介质和终端设备
CN110753269A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 视频摘要生成方法、智能终端及存储介质
CN110753269B (zh) * 2018-07-24 2022-05-03 Tcl科技集团股份有限公司 视频摘要生成方法、智能终端及存储介质
CN109271494B (zh) * 2018-08-10 2021-04-27 西安交通大学 一种自动提取中文问答语句焦点的系统
CN109271494A (zh) * 2018-08-10 2019-01-25 西安交通大学 一种自动提取中文问答语句焦点的系统
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109542247A (zh) * 2018-11-14 2019-03-29 腾讯科技(深圳)有限公司 句式推荐方法及装置、电子设备、存储介质
CN109542247B (zh) * 2018-11-14 2023-03-24 腾讯科技(深圳)有限公司 句式推荐方法及装置、电子设备、存储介质
CN109522419A (zh) * 2018-11-15 2019-03-26 北京搜狗科技发展有限公司 会话信息补全方法及装置
CN109522419B (zh) * 2018-11-15 2020-08-04 北京搜狗科技发展有限公司 会话信息补全方法及装置
CN109871437A (zh) * 2018-11-30 2019-06-11 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
CN109871437B (zh) * 2018-11-30 2023-04-21 阿里巴巴集团控股有限公司 用于用户问题语句处理的方法及装置
WO2020164336A1 (zh) * 2019-02-13 2020-08-20 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN109992671A (zh) * 2019-04-10 2019-07-09 出门问问信息科技有限公司 意图识别方法、装置、设备及存储介质
CN110113422A (zh) * 2019-05-10 2019-08-09 南京硅基智能科技有限公司 一种基于云端的虚拟手机的意图识别方法及系统
CN110188169A (zh) * 2019-05-27 2019-08-30 深圳宇诺智能有限公司 一种基于简化标签的知识匹配方法、系统及设备
CN110222182B (zh) * 2019-06-06 2022-12-27 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110245334B (zh) * 2019-06-25 2023-06-16 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110245334A (zh) * 2019-06-25 2019-09-17 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110413790B (zh) * 2019-08-02 2020-04-28 上海云绅智能科技有限公司 一种场景分类方法及装置
CN110413790A (zh) * 2019-08-02 2019-11-05 上海云绅智能科技有限公司 一种场景分类方法及装置
CN112632234A (zh) * 2019-10-09 2021-04-09 科沃斯商用机器人有限公司 人机交互方法、装置、智能机器人和存储介质
CN110955767A (zh) * 2019-12-04 2020-04-03 中国太平洋保险(集团)股份有限公司 一种机器人对话系统中生成意图候选集列表集合的算法及装置
CN111008309A (zh) * 2019-12-06 2020-04-14 北京百度网讯科技有限公司 查询方法及装置
CN111008309B (zh) * 2019-12-06 2023-08-08 北京百度网讯科技有限公司 查询方法及装置
CN111048073A (zh) * 2019-12-16 2020-04-21 北京明略软件系统有限公司 一种音频处理方法、装置、电子设备及可读存储介质
CN111626059A (zh) * 2020-04-30 2020-09-04 联想(北京)有限公司 一种信息处理方法及装置
CN111897930A (zh) * 2020-06-13 2020-11-06 南京奥拓电子科技有限公司 一种自动问答方法与系统、智能设备及存储介质
CN112149425A (zh) * 2020-09-15 2020-12-29 深圳康佳电子科技有限公司 终端控制方法、装置、设备及计算机可读存储介质
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112215008B (zh) * 2020-10-23 2024-04-16 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112163087A (zh) * 2020-11-10 2021-01-01 山东比特智能科技股份有限公司 对话系统中意图冲突的解决方法、系统及装置

Also Published As

Publication number Publication date
CN107679039B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN107679039A (zh) 用于确定语句意图的方法和装置
CN107491534B (zh) 信息处理方法和装置
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN106383875B (zh) 基于人工智能的人机交互方法和装置
US9361587B2 (en) Authoring system for bayesian networks automatically extracted from text
JP2021089705A (ja) 翻訳品質を評価するための方法と装置
CN107301170A (zh) 基于人工智能的切分语句的方法和装置
CN107861954A (zh) 基于人工智能的信息输出方法和装置
CN107220386A (zh) 信息推送方法和装置
CN107783960A (zh) 用于抽取信息的方法、装置和设备
CN107832305A (zh) 用于生成信息的方法和装置
CN107609152A (zh) 用于扩展查询式的方法和装置
CN108121800A (zh) 基于人工智能的信息生成方法和装置
CN109190124B (zh) 用于分词的方法和装置
CN106960030A (zh) 基于人工智能的推送信息方法及装置
CN110275963A (zh) 用于输出信息的方法和装置
CN106227792B (zh) 用于推送信息的方法和装置
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
US20230084055A1 (en) Method for generating federated learning model
CN109582954A (zh) 用于输出信息的方法和装置
CN112784589B (zh) 一种训练样本的生成方法、装置及电子设备
CN112925914B (zh) 数据安全分级方法、系统、设备及存储介质
CN109325178A (zh) 用于处理信息的方法和装置
CN107862058A (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant