CN106682194B - 基于深度问答的答案定位方法及装置 - Google Patents
基于深度问答的答案定位方法及装置 Download PDFInfo
- Publication number
- CN106682194B CN106682194B CN201611249487.2A CN201611249487A CN106682194B CN 106682194 B CN106682194 B CN 106682194B CN 201611249487 A CN201611249487 A CN 201611249487A CN 106682194 B CN106682194 B CN 106682194B
- Authority
- CN
- China
- Prior art keywords
- answer
- probability
- alignment
- alignment probability
- query statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提出了一种基于深度问答的答案定位方法及装置,其中,方法包括:接收输入的查询语句;对查询语句进行解析,以生成查询语句对应的语义解析树;利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率;根据对齐概率确定最终答案。通过本发明能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于深度问答的答案定位方法及装置。
背景技术
深度问答(Deep Question and Answer,DeepQA),是指理解人类的语言,智能识别问题的含义,并从海量的互联网数据中提取问题的答案。
随着互联网的快速发展,搜索引擎的功能日趋强大,用户对搜索引擎的期望也越来越高,开始由基本的相关网页召回向智能问答转变。当用户通过搜索引擎输入所要查询的问题时,希望获得的搜索结果不再是相关的网页,而希望能够直接获得问题的答案。
然而,现有的搜索引擎技术仅能通过信息检索和文档摘要技术,向用户提供相关性较高的网页作为检索结果,用户需要结合网页标题、正文摘要甚至是网页链接等信息确定所要查看的网页,并自行在冗余的文本中查找答案。因此,现有技术无法直观、清晰地向用户展现所需答案。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于深度问答的答案定位方法,该方法能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
本发明的第二个目的在于提出一种基于深度问答的答案定位装置。
本发明的第三个目的在于提出一种终端。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为了实现上述目的,本发明第一方面实施例提出了一种基于深度问答的答案定位方法,包括:接收输入的查询语句;对查询语句进行解析,以生成查询语句对应的语义解析树;利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率;根据对齐概率确定最终答案。
本发明第一方面实施例提出的基于深度问答的答案定位方法,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
为了实现上述目的,本发明第二方面实施例提出了一种基于深度问答的答案定位装置,包括:接收模块,用于接收输入的查询语句;解析模块,用于对查询语句进行解析,以生成查询语句对应的语义解析树;匹配模块,用于利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率;确定模块,用于根据对齐概率确定最终答案。
本发明第二方面实施例提出的基于深度问答的答案定位装置,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
为了实现上述目的,本发明第三方面实施例提出了一种终端,包括:处理器;用于存储处理器可执行指令的存储器。其中,处理器被配置为执行以下步骤:
接收输入的查询语句;
对查询语句进行解析,以生成查询语句对应的语义解析树;
利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率;
根据对齐概率确定最终答案。
本发明第三方面实施例提出的终端,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,用于存储一个或多个程序,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种基于深度问答的答案定位方法,方法包括;
接收输入的查询语句;
对查询语句进行解析,以生成查询语句对应的语义解析树;
利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率;
根据对齐概率确定最终答案。
本发明第四方面实施例提出的非临时性计算机可读存储介质,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行一种基于深度问答的答案定位方法,方法包括:
接收输入的查询语句;
对查询语句进行解析,以生成查询语句对应的语义解析树;
利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率;
根据对齐概率确定最终答案。
本发明第五方面实施例提出的计算机程序产品,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的基于深度问答的答案定位方法的流程示意图;
图2是获取匹配库中候选答案与语义解析树的对齐概率的示意图;
图3是采用本实施例提出的基于深度问答的答案定位方法的搜索引擎的搜索结果显示界面图;
图4是本发明另一实施例提出的基于深度问答的答案定位方法的流程示意图;
图5是建立匹配库的流程示意图;
图6是问答对统计对齐结果示意图;
图7是本发明一实施例提出的基于深度问答的答案定位装置的结构示意图;
图8是本发明另一实施例提出的基于深度问答的答案定位装置的结构示意图;
图9是本发明又一实施例提出的基于深度问答的答案定位装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
随着网络信息技术的发展,用户对搜索引擎的需求已不满足于基本的相关网页召回,开始向智能问答方向转变。比如,当用户通过搜索引擎输入查询语句“海水为什么是咸的”时,希望能够在搜索结果显示界面直接获得海水是咸的的原因。
然而,现有的搜索引擎通过传统的信息检索和文档摘要技术,仅能向用户提供与查询语句有相关性的搜索结果,同时,通过摘要计算,提取网页中能够总结网页内容的文字展现给用户,以辅助用户确定点击的内容。用户需要结合网页标题、正文摘要甚至是网页链接等信息确定所要查看的网页,并从冗长的网页内容中自行提取所需答案。可见,现有的搜索引擎技术无法满足用户通过搜索结果显示界面直接获得所需答案的需求。
因此,为了弥补现有技术的不足,本发明提出了一种基于深度问答的答案定位方法,以在搜索结果显示界面中直观、清晰地展现用户所需的答案。
图1是本发明一实施例提出的基于深度问答的答案定位方法的流程示意图。
如图1所示,本实施例的基于深度问答的答案定位方法,包括:
S11:接收输入的查询语句。
本实施例中,当用户想要查询某一问题的答案时,比如用户想要了解海水是咸的的原因,可以在搜索引擎中输入想要查询的问题,即输入“海水为什么是咸的”。搜索引擎接收用户输入的查询语句,以进行答案搜索。
S12:对查询语句进行解析,以生成查询语句对应的语义解析树。
本实施例中,搜索引擎在接收了用户输入的查询语句之后,进一步对查询语句进行解析,以生成查询语句对应的语义解析树。
S13:利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率。
其中,匹配库中候选答案与语义解析树的对齐概率,包括词对齐概率或短语对齐概率。
本实施例中,在对查询语句进行解析并获得查询语句对应的语义解析树之后,利用预先建立的匹配库,对获得的语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,即获取匹配库中候选答案与语义解析树的词对齐概率或短语对齐概率。
具体地,当获取的对齐概率为词对齐概率时,利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,包括:获取语义解析树中每种词性的对齐概率;根据每种词性的对齐概率获取词对齐概率。
更具体地,获取语义解析树中每种词性的对齐概率,可以通过如下所示的公式(1)-公式(4)获取:
其中,lat、verb、noun和adj分别表示问题核心词、动词、名词和形容词,对应的Scorelat、Scoreverb、Scorenoun和Scoreadj分别表示问题核心词、动词、名词和形容词的对齐概率。
以计算问题核心词lat的概率为例来说,遍历答案中的所有词,获取问题核心词的正向概率P(wordi|lat)和反向概率P(lat|wordi),将问题核心词的正反向概率与所匹配词的重要性weight(wordi)相乘,乘积最大的值即为问题核心词的对齐概率。
需要说明的是,在用户输入的查询语句中,通常问题核心词、动词、名词和形容词对匹配过程起着关键作用,因此,本实施例提出的答案定位方法中,获取问题核心词、动词、名词和形容词的对齐概率。
在获取了解析树中每种词性的对齐概率之后,根据每种词性的对齐概率,使用公式(5)即可获得词对齐概率。其中,公式(5)如下所示:
Score=(αScorelat*βScoreverb*γScorenoun*δScoreadj)*offset_punish(5)
其中,α、β、γ和δ分别表示问题核心词、动词、名词和形容词的对齐概率的权重,可以通过训练获得;offset_punish表示偏移量的惩罚。
当获取的对齐概率为短语对齐概率时,利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,包括:计算匹配库中候选答案与语义解析树中所有匹配成功的短语的对齐概率与该短语包含的词的乘积,以获取短语的正向概率和反向概率;获取正向概率和反向概率中的较大值进行加权求和,以获得短语对齐概率。
计算公式如公式(6)所示:
作为一种示例,参见图2,图2是获取匹配库中候选答案与语义解析树的对齐概率的示意图。
如图2所示,用户输入的查询语句是“iPhone6如何截屏”,对查询语句进行解析后,获得对应的语义解析树“iPhone6”、“如何”和“截屏”。利用预先建立的匹配库,对语义解析树进行匹配,获得匹配库中的候选答案“可以同时按住手机HOME键关机键完成截图”,并使用前述公式计算获得候选答案与语义解析树的对齐概率。从图2中可以看出,“iPhone6”与“手机”匹配,对齐概率为0.05;“如何”与“可以”、“完成”匹配,对齐概率分别为0.05、0.001;“截屏”与“截图”匹配,对齐概率为0.22。图2中,虚线框中的部分表示短语,可以看出,短语“如何截屏”与“同时按住”和“关机键”匹配,对齐概率分别为0.45和0.41。
S14:根据对齐概率确定最终答案。
本实施例中,在获取了对齐概率之后,即可根据对齐概率确定最终答案。
具体地,可以根据词对齐概率和/或短语对齐概率,对候选答案进行排序,并将得分最高的候选答案作为最终答案。
本实施例中,在确定了最终答案之后,即可对最终答案进行相应处理,比如加粗、改变字的颜色等,并将处理后的答案显示在搜索结果展现页面上。
作为一种示例,参见图3,图3是采用本实施例提出的答案定位方法的搜索引擎的搜索结果显示界面图。
如图3所示,当用户在搜素框31中输入查询语句“海水为什么是咸的”时,搜索引擎将获得的搜索结果中与查询语句对应的答案进行加粗处理后,将搜索结果展现在显示框32中。当用户查看显示框32中的搜索结果时,能够从被加粗的文字直接获知,海水是咸的是因为“海洋中的盐类物质越积越多,海水也就变得越来越咸”。可见,本实施例提出的答案定位方法能够帮助用户直观、快速地获得所需信息。
本发明实施例提出的基于深度问答的答案定位方法,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
图4是本发明另一实施例提出的基于深度问答的答案定位方法的流程示意图。
如图4所示,基于上述实施例,该基于深度问答的答案定位方法还包括:
S15:建立匹配库。
本实施例中,为了能够对语义解析树进行匹配,在利用匹配库进行匹配之前,需要预先建立匹配库。
具体地,如图5所示,建立匹配库,可以包括以下步骤:
S151:获取问答资源。
其中,问答资源包括查询语句样本及其对应的答案样本。
问答资源可以通过问答社区或问答站点获得,比如,可以通过百度知道、360问答等社区获取大量的问答资源。
举例而言,查询语句样本为“海水为什么是咸的”,通过百度知道获得的答案样本为“海洋是咸的是因为海水中有浓度较高的盐分,这些盐分主要有以下两个来源:一是降水形成径流的过程中对陆地上的土壤、岩石的侵蚀作用将含盐矿物质带入河流,最终汇入海洋;二是海底本身的地质活动(火山喷发、海底热液等)会溶解一部分盐分到海水中”。由此,查询语句样本和该答案样本组成一各问答对。大量问答对的集合即构成了问答资源。
应当理解的是,为了能够训练生成匹配库,需要获取大量的问答对,从而构成问答资源,以保证匹配库的全面性。
S152:对问答资源进行统计对齐。
本实施例中,在获取了问答资源后,将问答资源中的每个问答对进行统计对齐。
具体地,可以采用相关技术中的机器学习方法,计算每个问答对中词匹配的全局最优解,以获取问答对中查询语句样本与对应的答案样本中词与词之间的对齐关系。
作为一种示例,参见图6,图6是问答对统计对齐结果示意图。
如图6所示,仍以上述“海水为什么是咸的”这一问答对为例。从图6中可以看出,该问答对的统计对齐结果为:查询语句样本中的“海水”与答案样本中的“海洋”对齐,“为什么”与“是”和“因为”对齐,“咸”与“咸的”对齐,等等。图6中,“…”表示答案样本中的剩余内容,为避免赘余,此处不一一列举。
S153:获取核心词。
本实施例中,为了提高统计对齐的准确度,还可以获取问答资源中查询语句样本的核心词,以用于对与核心词对齐的词进行过滤、筛选,获得更准确的统计对齐关系。
可选地,可以采用相关技术(比如,机器学习序列标注方法)获取核心词,采用覆盖查询比(Covered Query Ratio,CQR)算法获取查询语句、答案句的命中程度,过滤CQR值较低的对齐词以及与核心词未命中的句子。
举例而言,仍以图6中的示例为例,获取的核心词是“为什么”,利用CQR算法计算与其对齐的词“是”和“因为”的CQR值,能够确定“因为”的CQR值高于“是”的CQR值,因此,将“是”过滤掉,“为什么”的对齐词为“因为”。
S154:根据统计对齐后的问答资源生成词语表。
本实施例中,在通过获取查询语句样本的核心词并对与核心词对齐的词进行过滤、筛选,获得更准确的统计对齐关系之后,根据再次统计对齐后的问答资源生成词语表。
具体地,在统计对齐后的问答资源中,将查询语句样本中能够组成短语的词组成短语,将答案样本中能够组成短语的词组成短语,并根据组成的短语生成词语表。
S155:根据词语表生成问答资源的成对概率。
本实施例中,在获得词语表之后,根据词语表继续生成问答资源的成对概率。
具体地,在获得词语表之后,进一步根据词语表并利用语义依存分析技术对问答资源进行解析并泛化,最后按照约定公式计算获得成对概率。
其中,泛化的主要依据为依存关系、词性、词语表,以及规则限制条件等。
举例而言,将查询语句样本“海水为什么是咸的”泛化为“A为什么B”,将与查询语句对应的答案样本“海洋是咸的是因为海水中有浓度较高的盐分”泛化为“AB是因为”。
对问答资源进行解析并泛化之后,即可使用公式(7)计算获得问答资源的成对概率。其中,公式(7)如下所示:
其中,af表示答案中泛化的片段,qf表示查询语句中泛化的片段,Count(af,qf)表示af、qf的统计共现频次,count(af,qf_i)表示查询语句中泛化的第i个片段与答案中泛化的片段的共现频次。
在获得问答资源的成对概率之后,匹配库建立完成。
需要说明的是,步骤S15建立匹配库的过程可以在步骤S13执行之前的任一时刻执行,本发明对步骤S15的执行时间不作限制。
本发明实施例提出的基于深度问答的答案定位方法,通过获取问答资源,对问答资源进行统计对齐,获取核心词,根据统计对齐后的问答资源生成词语表,进而根据词语表生成问答资源的成对概率,以建立匹配库,能够获得更精准的匹配库,进而保证最终答案的准确度。
为了实现上述实施例,本发明还提出了一种基于深度问答的答案定位装置,图7是本发明一实施例提出的基于深度问答的答案定位装置的结构示意图。
如图7所示,本实施例的基于深度问答的答案定位装置包括:接收模块710、解析模块720、匹配模块730,以及确定模块740。其中,
接收模块710,用于接收输入的查询语句。
解析模块720,用于对查询语句进行解析,以生成查询语句对应的语义解析树。
匹配模块730,用于利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率。
其中,匹配库中候选答案与语义解析树的对齐概率,包括词对齐概率或短语对齐概率。
具体地,当对齐概率为词对齐概率时,匹配模块730用于:
获取语义解析树中每种词性的对齐概率;
根据每种词性的对齐概率获取词对齐概率。
当对齐概率为短语对齐概率时,匹配模块730用于:
计算匹配库中候选答案与语义解析树中所有匹配成功的短语的对齐概率与该短语包含的词的乘积,以获取短语的正向概率和反向概率;
获取正向概率和反向概率中的较大值进行加权求和,以获得短语对齐概率。
确定模块740,用于根据对齐概率确定最终答案。
具体地,确定模块740用于:
根据词对齐概率和/或短语对齐概率,对候选答案进行排序,并将得分最高的候选答案作为最终答案。
需要说明的是,前述实施例中对基于深度问答的答案定位方法实施例的解释说明也适用于本实施例的基于深度问答的答案定位装置,其实现原理类似,此处不再赘述。
本发明实施例提出的基于深度问答的答案定位装置,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
图8是本发明另一实施例提出的基于深度问答的答案定位装置的结构示意图。
如图8所示,在如图7所示的基础上,该基于深度问答的答案定位装置还包括:
建立模块750,用于建立匹配库。
具体地,如图9所示,建立模块750包括:
获取单元751,用于获取问答资源。
其中,问答资源包括查询语句样本及其对应的答案样本。
对齐单元752,用于对问答资源进行统计对齐。
第一生成单元753,用于根据统计对齐后的问答资源生成词语表。
第二生成单元754,用于根据词语表生成问答资源的成对概率。
需要说明的是,前述实施例中对基于深度问答的答案定位方法实施例的解释说明也适用于本实施例的基于深度问答的答案定位装置,其实现原理类似,此处不再赘述。
本发明实施例提出的基于深度问答的答案定位装置,通过获取问答资源,对问答资源进行统计对齐,获取核心词,根据统计对齐后的问答资源生成词语表,进而根据词语表生成问答资源的成对概率,以建立匹配库,能够获得更精准的匹配库,进而保证最终答案的准确度。
为了实现上述实施例,本发明还提出了一种终端,包括:处理器,以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行以下步骤:
S11’:接收输入的查询语句。
S12’:对查询语句进行解析,以生成查询语句对应的语义解析树。
S13’:利用预先建立的匹配库,对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率。
S14’:根据对齐概率确定最终答案。
需要说明的是,前述实施例中对基于深度问答的答案定位方法实施例的解释说明也适用于本实施例的终端,其实现原理类似,此处不再赘述。
本发明实施例提出的终端,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,用于存储一个或多个程序,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行本发明第一方面实施例提出的基于深度问答的答案定位方法。
本发明实施例提出的非临时性计算机可读存储介质,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
为了实现上述实施例,本发明还提出了一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行本发明第一方面实施例提出的基于深度问答的答案定位方法。
本发明实施例提出的计算机程序产品,通过接收输入的查询语句,对查询语句进行解析,以生成查询语句对应的语义解析树,利用预先建立的匹配库对语义解析树进行匹配,以获取匹配库中候选答案与语义解析树的对齐概率,根据对齐概率确定最终答案。由此,能够避免用户点击链接以及在冗长的文本中寻找答案的过程,直观、清晰地展现用户所需答案,深度满足用户的搜索服务需求。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种基于深度问答的答案定位方法,其特征在于,包括:
接收输入的查询语句;
对所述查询语句进行解析,以生成所述查询语句对应的语义解析树;
利用预先建立的匹配库,对所述语义解析树进行匹配,以获取所述匹配库中候选答案与所述语义解析树的对齐概率,其中,所述对齐概率包括词对齐概率,所述词对齐概率根据所述语义解析树中每种词性的对齐概率确定;
根据所述对齐概率确定最终答案。
2.如权利要求1所述的方法,其特征在于,还包括;
建立所述匹配库。
3.如权利要求2所述的方法,其特征在于,建立所述匹配库,包括:
获取问答资源,所述问答资源包括查询语句样本及其对应的答案样本;
对所述问答资源进行统计对齐;
根据统计对齐后的问答资源生成词语表;
根据所述词语表生成所述问答资源的成对概率。
4.如权利要求1所述的方法,其特征在于,所述匹配库中候选答案与所述语义解析树的对齐概率,还包括:短语对齐概率。
5.如权利要求4所述的方法,其特征在于,当所述对齐概率为短语对齐概率时,利用预先建立的匹配库,对所述语义解析树进行匹配,以获取所述匹配库中候选答案与所述语义解析树的对齐概率,包括:
计算所述匹配库中候选答案与所述语义解析树中所有匹配成功的短语的对齐概率与该短语包含的词的乘积,以获取所述短语的正向概率和反向概率;
获取所述正向概率和所述反向概率中的较大值进行加权求和,以获得短语对齐概率。
6.如权利要求4所述的方法,其特征在于,根据所述对齐概率确定最终答案,包括:
根据所述词对齐概率和/或所述短语对齐概率,对候选答案进行排序,并将得分最高的候选答案作为最终答案。
7.一种基于深度问答的答案定位装置,其特征在于,包括:
接收模块,用于接收输入的查询语句;
解析模块,用于对所述查询语句进行解析,以生成所述查询语句对应的语义解析树;
匹配模块,用于利用预先建立的匹配库,对所述语义解析树进行匹配,以获取所述匹配库中候选答案与所述语义解析树的对齐概率,其中,所述对齐概率包括词对齐概率,所述词对齐概率根据所述语义解析树中每种词性的对齐概率确定;
确定模块,用于根据所述对齐概率确定最终答案。
8.如权利要求7所述的装置,其特征在于,还包括;
建立模块,用于建立所述匹配库。
9.如权利要求8所述的装置,其特征在于,所述建立模块,包括:
获取单元,用于获取问答资源,所述问答资源包括查询语句样本及其对应的答案样本;
对齐单元,用于对所述问答资源进行统计对齐;
第一生成单元,用于根据统计对齐后的问答资源生成词语表;
第二生成单元,用于根据所述词语表生成所述问答资源的成对概率。
10.如权利要求7所述的装置,其特征在于,所述匹配库中候选答案与所述语义解析树的对齐概率,还包括:短语对齐概率。
11.如权利要求10所述的装置,其特征在于,当所述对齐概率为短语对齐概率时,所述匹配模块,用于:
计算所述匹配库中候选答案与所述语义解析树中所有匹配成功的短语的对齐概率与该短语包含的词的乘积,以获取所述短语的正向概率和反向概率;
获取所述正向概率和所述反向概率中的较大值进行加权求和,以获得短语对齐概率。
12.如权利要求10所述的装置,其特征在于,所述确定模块,用于:
根据所述词对齐概率和/或所述短语对齐概率,对候选答案进行排序,并将得分最高的候选答案作为最终答案。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611249487.2A CN106682194B (zh) | 2016-12-29 | 2016-12-29 | 基于深度问答的答案定位方法及装置 |
US15/858,570 US10706090B2 (en) | 2016-12-29 | 2017-12-29 | Method and device for locating an answer based on question and answer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611249487.2A CN106682194B (zh) | 2016-12-29 | 2016-12-29 | 基于深度问答的答案定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106682194A CN106682194A (zh) | 2017-05-17 |
CN106682194B true CN106682194B (zh) | 2020-05-22 |
Family
ID=58873143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611249487.2A Active CN106682194B (zh) | 2016-12-29 | 2016-12-29 | 基于深度问答的答案定位方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10706090B2 (zh) |
CN (1) | CN106682194B (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11960844B2 (en) * | 2017-05-10 | 2024-04-16 | Oracle International Corporation | Discourse parsing using semantic and syntactic relations |
US11586827B2 (en) * | 2017-05-10 | 2023-02-21 | Oracle International Corporation | Generating desired discourse structure from an arbitrary text |
US20220284194A1 (en) * | 2017-05-10 | 2022-09-08 | Oracle International Corporation | Using communicative discourse trees to detect distributed incompetence |
US11373632B2 (en) * | 2017-05-10 | 2022-06-28 | Oracle International Corporation | Using communicative discourse trees to create a virtual persuasive dialogue |
US10817670B2 (en) * | 2017-05-10 | 2020-10-27 | Oracle International Corporation | Enabling chatbots by validating argumentation |
US11386274B2 (en) * | 2017-05-10 | 2022-07-12 | Oracle International Corporation | Using communicative discourse trees to detect distributed incompetence |
US10599885B2 (en) | 2017-05-10 | 2020-03-24 | Oracle International Corporation | Utilizing discourse structure of noisy user-generated content for chatbot learning |
US11615145B2 (en) | 2017-05-10 | 2023-03-28 | Oracle International Corporation | Converting a document into a chatbot-accessible form via the use of communicative discourse trees |
US10839154B2 (en) * | 2017-05-10 | 2020-11-17 | Oracle International Corporation | Enabling chatbots by detecting and supporting affective argumentation |
WO2018208979A1 (en) * | 2017-05-10 | 2018-11-15 | Oracle International Corporation | Enabling rhetorical analysis via the use of communicative discourse trees |
US10679011B2 (en) * | 2017-05-10 | 2020-06-09 | Oracle International Corporation | Enabling chatbots by detecting and supporting argumentation |
US10839161B2 (en) | 2017-06-15 | 2020-11-17 | Oracle International Corporation | Tree kernel learning for text classification into classes of intent |
US11100144B2 (en) | 2017-06-15 | 2021-08-24 | Oracle International Corporation | Data loss prevention system for cloud security based on document discourse analysis |
US11182412B2 (en) | 2017-09-27 | 2021-11-23 | Oracle International Corporation | Search indexing using discourse trees |
EP3688609A1 (en) | 2017-09-28 | 2020-08-05 | Oracle International Corporation | Determining cross-document rhetorical relationships based on parsing and identification of named entities |
US10796099B2 (en) | 2017-09-28 | 2020-10-06 | Oracle International Corporation | Enabling autonomous agents to discriminate between questions and requests |
CN108052547B (zh) * | 2017-11-27 | 2019-09-27 | 华中科技大学 | 基于问句和知识图结构分析的自然语言问答方法及系统 |
US11537645B2 (en) * | 2018-01-30 | 2022-12-27 | Oracle International Corporation | Building dialogue structure by using communicative discourse trees |
WO2019152426A1 (en) | 2018-01-30 | 2019-08-08 | Oracle International Corporation | Using communicative discourse trees to detect a request for an explanation |
JP7258047B2 (ja) | 2018-05-09 | 2023-04-14 | オラクル・インターナショナル・コーポレイション | 収束質問に対する回答を改善するための仮想談話ツリーの構築 |
US11455494B2 (en) | 2018-05-30 | 2022-09-27 | Oracle International Corporation | Automated building of expanded datasets for training of autonomous agents |
CN108959531B (zh) * | 2018-06-29 | 2020-12-22 | 北京百度网讯科技有限公司 | 信息搜索方法、装置、设备及存储介质 |
US11645459B2 (en) | 2018-07-02 | 2023-05-09 | Oracle International Corporation | Social autonomous agent implementation using lattice queries and relevancy detection |
CN109271528A (zh) * | 2018-09-30 | 2019-01-25 | 税友软件集团股份有限公司 | 一种基于税务语义的结果查询方法、装置和存储介质 |
US11562135B2 (en) | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
US11321536B2 (en) | 2019-02-13 | 2022-05-03 | Oracle International Corporation | Chatbot conducting a virtual social dialogue |
US11295077B2 (en) * | 2019-04-08 | 2022-04-05 | International Business Machines Corporation | Stratification of token types for domain-adaptable question answering systems |
CN111951782A (zh) * | 2019-04-30 | 2020-11-17 | 京东方科技集团股份有限公司 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
US11449682B2 (en) | 2019-08-29 | 2022-09-20 | Oracle International Corporation | Adjusting chatbot conversation to user personality and mood |
US11775772B2 (en) | 2019-12-05 | 2023-10-03 | Oracle International Corporation | Chatbot providing a defeating reply |
WO2021146388A1 (en) * | 2020-01-14 | 2021-07-22 | RELX Inc. | Systems and methods for providing answers to a query |
CN111382256B (zh) * | 2020-03-20 | 2024-04-09 | 北京百度网讯科技有限公司 | 信息推荐方法及装置 |
CN111666770B (zh) * | 2020-06-02 | 2023-07-18 | 泰康保险集团股份有限公司 | 一种语义匹配方法及装置 |
EP4200717A2 (en) | 2020-08-24 | 2023-06-28 | Unlikely Artificial Intelligence Limited | A computer implemented method for the automated analysis or use of data |
CN113792124A (zh) * | 2021-01-15 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 智能应答方法、装置、电子设备及存储介质 |
US20220245179A1 (en) * | 2021-02-01 | 2022-08-04 | Adobe Inc. | Semantic phrasal similarity |
CN113127619A (zh) * | 2021-04-19 | 2021-07-16 | 厦门渊亭信息科技有限公司 | 一种智能问答方法和装置 |
CN113377921B (zh) * | 2021-06-25 | 2023-07-21 | 北京百度网讯科技有限公司 | 用于匹配信息的方法、装置、电子设备以及介质 |
CN115618061B (zh) * | 2022-11-29 | 2023-03-10 | 广东工业大学 | 一种语义对齐的视频问答方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118554A (zh) * | 2007-09-14 | 2008-02-06 | 中兴通讯股份有限公司 | 智能交互式问答系统及其处理方法 |
CN103221952A (zh) * | 2010-09-24 | 2013-07-24 | 国际商业机器公司 | 词法答案类型置信度估计和应用 |
CN104375988A (zh) * | 2014-11-04 | 2015-02-25 | 北京第二外国语学院 | 一种词语对齐方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665640B1 (en) * | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
US9336297B2 (en) * | 2012-08-02 | 2016-05-10 | Paypal, Inc. | Content inversion for user searches and product recommendations systems and methods |
US9292597B2 (en) * | 2013-10-24 | 2016-03-22 | International Business Machines Corporation | Smart question routing and answerer growing for online community question-answer services |
US20150331935A1 (en) * | 2014-05-13 | 2015-11-19 | International Business Machines Corporation | Querying a question and answer system |
US10706357B2 (en) * | 2016-05-13 | 2020-07-07 | Cognitive Scale, Inc. | Ingesting information into a universal cognitive graph |
US10769537B2 (en) * | 2016-06-21 | 2020-09-08 | International Business Machines Corporation | Cognitive question answering pipeline blending |
-
2016
- 2016-12-29 CN CN201611249487.2A patent/CN106682194B/zh active Active
-
2017
- 2017-12-29 US US15/858,570 patent/US10706090B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118554A (zh) * | 2007-09-14 | 2008-02-06 | 中兴通讯股份有限公司 | 智能交互式问答系统及其处理方法 |
CN103221952A (zh) * | 2010-09-24 | 2013-07-24 | 国际商业机器公司 | 词法答案类型置信度估计和应用 |
CN104375988A (zh) * | 2014-11-04 | 2015-02-25 | 北京第二外国语学院 | 一种词语对齐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20180189385A1 (en) | 2018-07-05 |
US10706090B2 (en) | 2020-07-07 |
CN106682194A (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682194B (zh) | 基于深度问答的答案定位方法及装置 | |
CN106649786B (zh) | 基于深度问答的答案检索方法及装置 | |
US10242049B2 (en) | Method, system and storage medium for implementing intelligent question answering | |
US10521463B2 (en) | Answering questions via a persona-based natural language processing (NLP) system | |
CN109145102B (zh) | 智能问答方法及其知识图谱系统构建方法、装置、设备 | |
US10720071B2 (en) | Dynamic identification and validation of test questions from a corpus | |
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
CN106649768A (zh) | 基于深度问答的问答澄清方法和装置 | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
US11762926B2 (en) | Recommending web API's and associated endpoints | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
JP7095114B2 (ja) | ネットワーク化システムでのドメイン固有モデルの生成 | |
US20170039267A1 (en) | Automatic query pattern generation | |
US10558931B2 (en) | Determining comprehensiveness of question paper given syllabus | |
CN108831442A (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
Wang et al. | Enriching descriptions for public web services using information captured from related web pages on the internet | |
CN112732969A (zh) | 图像语义分析方法、装置、存储介质及电子设备 | |
Sarkar et al. | Social media attributions in the context of water crisis | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
WO2023245523A1 (zh) | 用于生成训练数据的方法以及装置 | |
CN103020311A (zh) | 一种用户检索词的处理方法及系统 | |
CN104331443A (zh) | 一种行业数据源侦测方法 | |
KR20160049210A (ko) | 키워드 입력 기반의 사용자 관심정보를 이용한 질의응답 장치 및 방법 | |
WO2023245522A1 (zh) | 用于生成目标深度学习模型的方法以及装置 | |
CN117009372A (zh) | 一种智能问答方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |