CN102622413A - 一种回答自然语言问题的方法与装置 - Google Patents

一种回答自然语言问题的方法与装置 Download PDF

Info

Publication number
CN102622413A
CN102622413A CN2012100380783A CN201210038078A CN102622413A CN 102622413 A CN102622413 A CN 102622413A CN 2012100380783 A CN2012100380783 A CN 2012100380783A CN 201210038078 A CN201210038078 A CN 201210038078A CN 102622413 A CN102622413 A CN 102622413A
Authority
CN
China
Prior art keywords
attribute
entity
user
name
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100380783A
Other languages
English (en)
Inventor
郝宇
黄民烈
朱小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2012100380783A priority Critical patent/CN102622413A/zh
Publication of CN102622413A publication Critical patent/CN102622413A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法,包括以下步骤:(1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。还提供了一种回答自然语言问题的装置。

Description

一种回答自然语言问题的方法与装置
技术领域
本发明涉及搜索引擎的技术领域,具体地涉及一种回答自然语言问题的方法,该提供了使用该方法的装置。
背景技术
伴随互联网上的信息资源的多样化趋势,网络上不断涌现出大量的具有一定组织结构的信息资源载体。当前主要基于关键字匹配的搜索引擎技术虽然在文档检索中有着较好的搜索效果,然而却并不能满足结构化信息源对检索精确性的要求。另一方面,虽然现有的数据库检索技术能够实现精确检索,然而由于它完全基于特定的数据库查询语言,因此无法实现面向广大普通用户的商用服务。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求的回答自然语言问题的方法。
本发明的技术方案是:这种回答自然语言问题的方法,包括以下步骤:
(1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;
(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。
还提供了一种回答自然语言问题的装置,包括:
(1)实体-属性模型,其进行实体-属性对集合的收集及特征提取;
(2)用户查询分析模型,当用户输入查询内容时,利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。
由于采用了实体-属性对的模式对用户查询的需求进行建模,经过建模,每一个用户查询将对应于一个实体-属性对,而该实体-属性对可以对大部分现有的结构化或半结构化信息资源进行索引,所以满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求。
附图说明
图1是根据本发明的回答自然语言问题的方法的流程图;
图2是步骤(1)的流程图;
图3是步骤(1.3)的流程图;
图4是步骤(2)的流程图;
图5是步骤(2.4)的流程图;
图6是步骤(2.4.2)的流程图。
具体实施方式
下面对本发明的技术方案做进一步的详细描述。
如图1所示,这种回答自然语言问题的方法,包括以下步骤:
(1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;
(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。
由于采用了实体-属性对的模式对用户查询的需求进行建模,经过建模,每一个用户查询将对应于一个实体-属性对,而该实体-属性对可以对大部分现有的结构化或半结构化信息资源进行索引,所以满足结构化信息源对检索精确性的要求、满足广大普通互联网用户日益增长的信息获取方面的需求。
优选地,如图2所示,步骤(1)包括以下分步骤:
(1.1)实体抽取:从在线的开放百科档案中获取实体名;
(1.2)属性抽取:从用户的查询内容中抽取出每一类实体的属性名;
(1.3)属性特征生成:从用户的查询内容中抽取每一属性相关的问题的最佳答案文本作为该属性的特征;
(1.4)实体-属性对模型生成:将每一个实体名和该实体所具有的属性名组成实体-属性对,并结合该实体-属性对的属性特征生成实体-属性模型。
更进一步地,如图3所示,步骤(1.3)包括以下分步骤:
(1.3.1)检索出问题文本中包含该属性名的所有问答数据;
(1.3.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据;
(1.3.3)以BM25算法对检索出的问题依据它与属性名的相似程度排序;
(1.3.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。
优选地,如图4所示,步骤(2)包括以下分步骤:
(2.1)查询预处理:检测并回退无法从结构化或半结构化信息源中检索出答案的用户的查询;
(2.2)用户查询分析:将用户的查询内容分拆为实体相关和属性相关两部分内容;
(2.3)用户查询所关注的实体的提取:使用关键词匹配技术从实体相关的查询内容中提取出用户关注的实体名;
(2.4)用户查询所关注的属性的提取:使用基于语言模型和作者-话题模型的混合模型根据属性相关的查询内容预测用户关注的属性名;
(2.5)分析结果后处理:将所提取的用户关注的实体名和属性名组合成实体-属性对,输出该实体-属性对。
更进一步地,如图5所示,步骤(2.4)包括以下分步骤:
(2.4.1)生成候选属性名列表:根据已经提取出的实体名,得到它所具有的全部属性作为候选属性;
(2.4.2)属性相关的查询内容的特征生成:从问答数据中抽取该内容文本相关的问题的最佳答案文本作为该查询内容的特征;
(2.4.3)计算属性相关的查询内容的特征与各候选属性特征的语义关联:使用如下公式计算该语义关联的数值:
rel(phr,att)=μ·relsim(phr,att)+(1-μ)·relint(phr,att)
其中,phr表示查询内容,att表示候选属性,且有,
rel sim ( phr , att ) = sim ( F phr , F att ) = F phr · F att | F phr | | F att |
relint(phr,att)=p(a=att|Fphr)
其中,F*表示提取出的特征文档,sim(·,·)为文档间的相似度计算,在实际应用中可以采用余弦距离(如上式)或其他具体的度量方法;p(a=·|·)表示作者-话题模型中的作者对给定文本的后验概率;
(2.4.4)结果输出:选择与查询的语义关联数值最大的一个或多个属性名,输出该一个或多个属性名。
更进一步地,如图6所示,步骤(2.4.2)包括以下分步骤:
(2.4.2.1)检索出问题文本中匹配该内容文本的所有问答数据;
(2.4.2.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据;
(2.4.2.3)以BM25算法对检索出的问题依据它与属性名的相似程度排序;
(2.4.2.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。
还提供了一种回答自然语言问题的装置,包括:
(1)实体-属性模型,其进行实体-属性对集合的收集及特征提取;
(2)用户查询分析模型,当用户输入查询内容时,利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (7)

1.一种回答自然语言问题的方法,其特征在于:包括以下步骤:
(1)生成实体-属性模型,进行实体-属性对集合的收集及特征提取;
(2)执行用户查询分析,当用户输入查询内容时,将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。
2.根据权利要求1所述的回答自然语言问题的方法,其特征在于:步骤(1)包括以下分步骤:
(1.1)实体抽取:从在线的开放百科档案中获取实体名;
(1.2)属性抽取:从用户的查询内容中抽取出每一类实体的属性名;
(1.3)属性特征生成:从用户的查询内容中抽取每一属性相关的问题的最佳答案文本作为该属性的特征;
(1.4)实体-属性对模型生成:将每一个实体名和该实体所具有的属性名组成实体-属性对,并结合该实体-属性对的属性特征生成实体-属性模型。
3.根据权利要求2所述的回答自然语言问题的方法,其特征在于:步骤(1.3)包括以下分步骤:
(1.3.1)检索出问题文本中包含该属性名的所有问答数据;
(1.3.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据;
(1.3.3)以BM25算法对检索出的问题依据它与属性名的相似程度排序;
(1.3.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。
4.根据权利要求1所述的回答自然语言问题的方法,其特征在于:步骤(2)包括以下分步骤:
(2.1)查询预处理:检测并回退无法从结构化或半结构化信息源中检索出答案的用户的查询;
(2.2)用户查询分析:将用户的查询内容分拆为实体相关和属性相关两部分内容;
(2.3)用户查询所关注的实体的提取:使用关键词匹配技术从实体相关的查询内容中提取出用户关注的实体名;
(2.4)用户查询所关注的属性的提取:使用基于语言模型和作者-话题模型的混合模型根据属性相关的查询内容预测用户关注的属性名;
(2.5)分析结果后处理:将所提取的用户关注的实体名和属性名组合成实体-属性对,输出该实体-属性对。
5.根据权利要求4所述的回答自然语言问题的方法,其特征在于:步骤(2.4)包括以下分步骤:
(2.4.1)生成候选属性名列表:根据已经提取出的实体名,得到它所具有的全部属性作为候选属性;
(2.4.2)属性相关的查询内容的特征生成:从问答数据中抽取该内容文本相关的问题的最佳答案文本作为该查询内容的特征;
(2.4.3)计算属性相关的查询内容的特征与各候选属性特征的语义关联:使用如下公式计算该语义关联的数值:
rel(phr,att)=μ·relsim(phr,att)+(1-μ)·relint(phr,att)
其中,phr表示查询内容,att表示候选属性,且有,
rel sim ( phr , att ) = sim ( F phr , F att ) = F phr · F att | F phr | | F att |
relint(phr,att)=p(a=att|Fphr)
其中,F*表示提取出的特征,p(a=·|·)表示作者-话题模型中的作者对给定文本的后验概率;
(2.4.4)结果输出:选择与查询的语义关联数值最大的一个或多个属性名,输出该一个或多个属性名。
6.根据权利要求5所述的回答自然语言问题的方法,其特征在于:步骤(2.4.2)包括以下分步骤:
(2.4.2.1)检索出问题文本中匹配该内容文本的所有问答数据;
(2.4.2.2)过滤掉问题文本中不包含与用户关注的实体名同类的实体名的问答数据;
(2.4.2.3)以BM25算法对检索出的问题依据它与属性名的相似程度排序;
(2.4.2.4)将排序结果中的前k个问题的最佳答案的文本集合作为该属性的特征,k为正整数。
7.一种回答自然语言问题的装置,其特征在于:包括:
(1)实体-属性模型,其进行实体-属性对集合的收集及特征提取;
(2)用户查询分析模型,当用户输入查询内容时,利用用户查询分析模型将该查询内容映射到它对应的用户需求的实体-属性对,其中查询内容即自然语言问题。
CN2012100380783A 2012-02-17 2012-02-17 一种回答自然语言问题的方法与装置 Pending CN102622413A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100380783A CN102622413A (zh) 2012-02-17 2012-02-17 一种回答自然语言问题的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100380783A CN102622413A (zh) 2012-02-17 2012-02-17 一种回答自然语言问题的方法与装置

Publications (1)

Publication Number Publication Date
CN102622413A true CN102622413A (zh) 2012-08-01

Family

ID=46562332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100380783A Pending CN102622413A (zh) 2012-02-17 2012-02-17 一种回答自然语言问题的方法与装置

Country Status (1)

Country Link
CN (1) CN102622413A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103455592A (zh) * 2013-08-30 2013-12-18 广州网易计算机系统有限公司 一种问答方法、装置及系统
CN106250366A (zh) * 2016-07-21 2016-12-21 北京光年无限科技有限公司 一种针对问答系统的数据处理方法及系统
CN106462564A (zh) * 2014-05-12 2017-02-22 谷歌公司 在文档内提供实际建议
CN107644012A (zh) * 2017-08-29 2018-01-30 平安科技(深圳)有限公司 电子装置、问题识别确认方法和计算机可读存储介质
WO2019015633A1 (en) * 2017-07-19 2019-01-24 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEMS AND METHODS FOR PROCESSING A CONVERSATION MESSAGE
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN102866990B (zh) * 2012-08-20 2016-08-03 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103455592A (zh) * 2013-08-30 2013-12-18 广州网易计算机系统有限公司 一种问答方法、装置及系统
CN103455592B (zh) * 2013-08-30 2017-01-18 广州网易计算机系统有限公司 一种问答方法、装置及系统
CN106462564A (zh) * 2014-05-12 2017-02-22 谷歌公司 在文档内提供实际建议
CN106250366A (zh) * 2016-07-21 2016-12-21 北京光年无限科技有限公司 一种针对问答系统的数据处理方法及系统
CN106250366B (zh) * 2016-07-21 2019-04-19 北京光年无限科技有限公司 一种针对问答系统的数据处理方法及系统
WO2019015633A1 (en) * 2017-07-19 2019-01-24 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEMS AND METHODS FOR PROCESSING A CONVERSATION MESSAGE
CN107644012A (zh) * 2017-08-29 2018-01-30 平安科技(深圳)有限公司 电子装置、问题识别确认方法和计算机可读存储介质
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111581376B (zh) * 2020-04-17 2024-04-19 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法

Similar Documents

Publication Publication Date Title
Liu et al. Full‐text citation analysis: A new method to enhance scholarly networks
CN102622413A (zh) 一种回答自然语言问题的方法与装置
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN104008109B (zh) 基于用户兴趣的Web信息推送服务系统
Habernal et al. SWSNL: semantic web search using natural language
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN104375998A (zh) 一种智能化的项目匹配分析工具及其实现方法
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
Liang et al. GLTM: A global and local word embedding-based topic model for short texts
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN102073729A (zh) 一种关系化知识共享平台及其实现方法
CN103198136B (zh) 一种基于时序关联的个人电脑文件查询方法
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
CN104679784A (zh) 一种o2b智能搜索方法及系统
CN101937433A (zh) 一种产品实时搜索方法
CN115730078A (zh) 用于类案检索的事件知识图谱构建方法、装置及电子设备
Lizarralde et al. Word embeddings for improving REST services discoverability
CN111143394A (zh) 知识数据处理方法、装置、介质及电子设备
CN101226547A (zh) 一种用在实体识别系统中的Web实体识别方法
CN112258061B (zh) 一种项目全过程风险智能分析预警系统及预警方法
CN103309962A (zh) 一种基于内容相关度和社交影响力的微博服务专家定位方法
Feitosa et al. Social recommendation in location-based social network using text mining
CN115170196A (zh) 一种基于大数据智能写作的推广方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120801