CN110162614B - 问题信息提取方法、装置、电子设备和存储介质 - Google Patents

问题信息提取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110162614B
CN110162614B CN201910457236.0A CN201910457236A CN110162614B CN 110162614 B CN110162614 B CN 110162614B CN 201910457236 A CN201910457236 A CN 201910457236A CN 110162614 B CN110162614 B CN 110162614B
Authority
CN
China
Prior art keywords
information
target
problem information
question
question information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910457236.0A
Other languages
English (en)
Other versions
CN110162614A (zh
Inventor
王卓然
亓超
马宇驰
陈华荣
秦海龙
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910457236.0A priority Critical patent/CN110162614B/zh
Publication of CN110162614A publication Critical patent/CN110162614A/zh
Application granted granted Critical
Publication of CN110162614B publication Critical patent/CN110162614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种问题信息提取方法、装置、电子设备及存储介质,涉及数据挖掘技术领域。该方法包括:获取目标领域的问题信息;将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息,基于本申请技术方案得到的目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。

Description

问题信息提取方法、装置、电子设备和存储介质
技术领域
本申请涉及数据挖掘技术领域,具体而言,本申请涉及一种问题信息提取方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的发展,人工智能得到越来越广泛的重视。人工智能是研究人类智能活动的规律,构造具有一定智能的计算机系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类智能行为的技术。人工智能技术在智能家居、智能车载、智能手机等领域得到了广泛应用。
将人工智能技术应用到问答系统中,能够自动回复用户提出的问题,在节省人力的同时,还能够提高回复效率。因此,需要一种从海量的语料中识别出满足要求的问题信息的解决方案,现有技术中的问题信息识别方案的识别效果不好,从而影响了问答系统回复答案的准确性。
发明内容
本申请提供了一种问题信息提取方法、装置、电子设备和存储介质,用于解决现有技术中的问题信息识别方案的识别效果不好,影响问答系统回复答案的准确性的问题。
第一方面,提供了一种问题信息提取方法,该方法包括:
获取目标领域的问题信息;
将问题信息进行标准化处理,得到标准化问题信息;
从标准化问题信息中提取出满足预设条件的目标问题信息;
其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
在一种可能的实现方式中,在从所述标准化问题信息中提取出满足预设条件的目标问题信息之后,所述方法还包括:
基于所述目标领域关键词在每个所述目标问题信息中的词频-逆文本频率TF-IDF将所述目标问题信息进行聚类,得到多个类别的目标问题信息;
确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据所述相似度进行去重处理。
在一种可能的实现方式中,方法还包括:
获取回复信息中的目标领域关键词数量特征参数和回复信息的长度特征参数;
将目标领域关键词数量特征参数和长度特征参数进行加权计算,根据加权计算结果确定答案信息。
在一种可能的实现方式中,在获取目标领域的问题信息之前,方法还包括:
对原始语料进行分词处理,得到候选目标领域关键词;
计算候选目标领域关键词的互信息、左熵以及右熵;
将互信息、左熵以及右熵相加,得到候选目标领域关键词的排序信息;
基于排序信息确定目标领域关键词。
在一种可能的实现方式中,获取目标领域的问题信息,包括:
将目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域问题信息。
在一种可能的实现方式中,将问题信息进行标准化处理,得到标准化问题信息,包括:
计算问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;
将相似度大于预设的第一相似度阈值的问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。
在一种可能的实现方式中,从标准化问题信息中提取出满足预设条件的目标问题信息,包括:
利用支持向量机SVM模型从标准化问题信息中提取出目标问题信息。
在一种可能的实现方式中,方法还包括:
接收用户输入的问题信息,计算用户输入的问题信息与目标问题信息的语义相似度;
当语义相似度达到预设的第二相似度阈值时,将目标问题信息对应的答案信息作为用户输入的问题信息对应的答案信息。
在一种可能的实现方式中,计算用户输入的问题信息与目标问题信息的语义相似度,包括:
计算用户输入的问题信息与目标问题信息之间的N-gram特征参数和语义距离特征参数;
将N-gram特征参数和语义距离特征参数进行线性加权计算,根据线性加权计算结果确定用户输入的问题信息与目标问题信息的语义相似度。
第二方面,提供了一种问题信息提取装置,包括:
获取模块,用于获取目标领域的问题信息;
处理模块,用于将问题信息进行标准化处理,得到标准化问题信息;
提取模块,用于从标准化问题信息中提取出满足预设条件的目标问题信息;
其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
在一种可能的实现方式中,装置还包括去重模块,去重模块用于:
基于目标领域关键词在每个目标问题信息中的词频-逆文本频率TF-IDF将目标问题信息进行聚类,得到多个类别的目标问题信息;
确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据相似度进行去重处理。
在一种可能的实现方式中,装置还包括答案确定模块,答案确定模块用于:
获取回复信息中的目标领域关键词数量特征参数和回复信息的长度特征参数;
将目标领域关键词数量特征参数和长度特征参数进行加权计算,根据加权计算结果确定答案信息。
在一种可能的实现方式中,装置还包括关键词确定模块,关键词确定模块用于:
对原始语料进行分词处理,得到候选目标领域关键词;
计算候选目标领域关键词的互信息、左熵以及右熵;
将互信息、左熵以及右熵相加,得到候选目标领域关键词的排序信息;
基于排序信息确定目标领域关键词。
在一种可能的实现方式中,获取模块具体用于:
将目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域问题信息。
在一种可能的实现方式中,处理模块具体用于:
计算问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;
将相似度大于预设的第一相似度阈值的问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。
在一种可能的实现方式中,提取模块具体用于:
利用支持向量机SVM模型从标准化问题信息中提取出目标问题信息。
在一种可能的实现方式中,装置还包括答案获取模块,答案获取模块包括计算单元和判断单元;
计算单元用于:接收用户输入的问题信息,计算用户输入的问题信息与目标问题信息的语义相似度;
判断单元用于:当语义相似度达到预设的第二相似度阈值时,将目标问题信息对应的答案信息作为用户输入的问题信息对应的答案信息。
在一种可能的实现方式中,计算单元具体用于:
计算用户输入的问题信息与目标问题信息之间的N-gram特征参数和语义距离特征参数;
将N-gram特征参数和语义距离特征参数进行线性加权计算,根据线性加权计算结果确定用户输入的问题信息与目标问题信息的语义相似度。
第三方面,提供了一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面或者第一方面任一可能的实现方式所示的问题信息提取方法。
第四方面,提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行根据第一方面或者第一方面任一可能的实现方式所示的问题信息提取方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种问题信息提取方法、装置、电子设备和存储介质,通过获取目标领域的问题信息;然后将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息后,得到问题信息对应的目标问题信息,由于目标问题信息的质量更高,对问答系统更有价值,因此,基于目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种问题信息提取方法的流程示意图;
图2为本申请实施例提供的一种问题信息提取装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种问题信息提取方法的流程示意图,如图1所示,该方法可以包括:
步骤S101,获取目标领域的问题信息;
步骤S102,将问题信息进行标准化处理,得到标准化问题信息;
步骤S103,从标准化问题信息中提取出满足预设条件的目标问题信息;
其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
本申请实施例提供了一种问题信息提取方法,通过获取目标领域的问题信息;然后将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息后,得到问题信息对应的目标问题信息,由于目标问题信息的质量更高,对问答系统更有价值,因此,基于目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。
下面对本公开实施例的上述方案进行具体展开说明。
步骤S101,获取目标领域的问题信息。
其中,目标领域的问题信息是关于特定的目标领域的问题信息,目标领域的问题信息中包含至少一个目标领域关键词,也就是目标领域的相关术语。例如,金融领域术语:基金赎回、自动平仓、跌穿、股权质押。目标领域的问题信息可以从目标领域的网络信息平台中获取,例如目标领域的BBS论坛,论坛中包含大量目标领域的问题信息以及关于问题的回复信息,可以作为问题信息语料库。例如,金融领域论坛中的问题:“新股申购市值怎么计算?”
需要说明的是,问题信息的获取还可以从目标领域相关的其他的数据库中获取,本申请实施例对此不做限定。
在一种可能的实现方式中,在获取目标领域的问题信息之前,方法还包括:
对原始语料进行分词处理,得到候选目标领域关键词;计算候选目标领域关键词的互信息、左熵以及右熵;将互信息、左熵以及右熵相加,得到候选目标领域关键词的排序信息;基于排序信息确定目标领域关键词。
在实际应用中,在获取目标领域的问题信息之前,需要先获取目标领域关键词。对大规模原始语料中的句子进行分词处理,得到多个候选目标领域关键词,例如,新股申购市值怎么计算。然后计算候选目标领域关键词的特征参数:互信息、左熵、右熵,通过这些特征参数相加得到的结果,对候选目标领域关键词进行排序,得到目标领域的专业词表。将排序在前预设数量阈值范围内的候选目标领域关键词作为目标领域关键词。
其中,根据公式1)计算互信息:
Figure GDA0002206047680000081
x,y为相邻的两个候选目标领域关键词。
根据公式2)计算左熵:
Figure GDA0002206047680000082
根据公式3)计算右熵:
Figure GDA0002206047680000083
其中,aW和Wb分别表示候选目标领域关键词与左边的词、候选目标领域关键词与右边的词的共现。
在一种可能的实现方式中,获取目标领域的问题信息,包括:
将目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域问题信息。
在实际应用中,将目标领域关键词与问题信息语料库中的问题信息进行匹配度计算,将包含至少一个目标领域关键词的问题信息作为目标领域问题信息。
步骤S102,将问题信息进行标准化处理,得到标准化问题信息;
在实际应用中,通过目标领域关键词匹配出的问题信息,存在表达不规范的问题,问题信息中包含与问题本身不相关的词汇,例如,“请问专家们”、“谢谢”、“辛苦了”等口语化表达词汇。需要将这些不相关词汇从问题信息中过滤掉,从而使问题信息更加书面化。
在一种可能的实现方式中,将问题信息进行标准化处理,得到标准化问题信息,包括:
计算问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;将相似度大于预设的第一相似度阈值的问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。
具体地,获取大量口语化表达词汇,生成口语化表达词汇表。过滤掉问题信息中的与口语化表达词汇表中的词汇相似度较高的词汇,得到过滤处理后的标准化问题信息。
步骤S103,从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
通过目标领域关键词匹配和标准化处理之后得到的标准化问题信息是目标领域相关的问题,还不是能够满足问答系统需要的目标问题信息,还需要进一步处理,从中提取出满足预设条件的目标问题信息。
在一种可能的实现方式中,从标准化问题信息中提取出满足预设条件的目标问题信息,包括:
利用支持向量机SVM模型从标准化问题信息中提取出目标问题信息。
具体的,通过人工标注的方式标注一批满足预设条件的问题信息作为SVM模型的训练集,利用训练好的SVM模型对标准化问题信息进行分类,将标准化问题信息中的词汇权重特征作为每个标准化问题信息的特征,从标准化问题信息中确定出目标问题信息。其中,预设条件中的第一数量阈值、第二数量阈值可以根据具体需要进行设置。
本申请实施例中得到的目标问题信息包含目标领域的关键词较多,说明该问题与目标领域相关度较高;并且对应的回复信息较多,则说明该问题是目标领域比较有代表性的典型问题,满足这些条件的问题信息的质量较高,更适合纳入问答系统的数据库。与现有技术中通过单一条件提取的问题信息相比,通过本申请实施例中的问题信息获取方式获取到的目标问题信息的质量更高,对于问答系统更有价值。
在一种可能的实现方式中,在从所述标准化问题信息中提取出满足预设条件的目标问题信息之后,所述方法还包括:
基于目标领域关键词在每个目标问题信息中的词频-逆文本频率(TermFrequency-Inverse Document Frequency,TF-IDF)将目标问题信息进行聚类,得到多个类别的目标问题信息;确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据所述相似度进行去重处理。
在实际应用中,得到的目标问题信息中存在重复问题的情况,因此需要进行去重处理。具体地,计算目标领域关键词在所有目标问题信息中的IDF值,进一步计算每个目标领域关键词在目标问题信息中的TF-IDF值,根据目标领域关键词在目标问题信息中的TF-IDF值对所有目标问题信息进行聚类,得到多个类别的目标问题信息,再将每一类别的目标问题信息进行去重处理。对于目标问题信息相似度的计算,可以将每个目标问题信息建立向量空间模型,计算任意两个目标问题信息的余弦相似度,根据相似度计算结果,过滤掉重复的目标问题信息。对于相似度的计算,除了余弦相似度之外,还可以通过其他方式进行计算,本申请实施例对此不做限定。
根据公式4)计算每个目标领域关键词在目标问题信息中的TF-IDF值:
TF-IDF(x)=TF(x)·IDF(x) 4)
其中,TF(x)表示目标领域关键词在目标问题信息中的词频,IDF(x)表示目标领域关键词在目标问题信息中的逆文本频率。
在一种可能的实现方式中,本申请实施例涉及的问题信息提取方法还包括:
获取回复信息中的目标领域关键词数量特征参数和回复信息的长度特征参数;将目标领域关键词数量特征参数和长度特征参数进行加权计算,根据加权计算结果确定答案信息。
在实际应用中,得到目标问题信息之后,需要进一步从目标问题信息的回复信息中提取出目标问题信息对应的答案信息,目的是将问题信息和答案信息共同纳入问答系统数据库。由于每个目标问题信息可能对应多个回复信息,通过回复信息中包含的目标领域关键词的数量和回复信息的长度两个特征确定出目标问题信息对应的答案信息。
在一种可能的实现方式中,本申请实施例涉及的问题信息提取方法还包括:
接收用户输入的问题信息,计算用户输入的问题信息与目标问题信息的语义相似度;当语义相似度达到预设的第二相似度阈值时,将目标问题信息对应的答案信息作为用户输入的问题信息对应的答案信息。
在实际应用中,将目标问题信息和对应的答案信息构造问答系统的数据库之后,可以应用该问答系统向用户提供问答服务,接收用户输入的问题信息,准确识别出用户输入的问题信息的意图,然后给出答案。具体的,从数据库中查询与用户输入的问题信息语义相似度最高的目标问题信息,将该目标问题信息的答案信息发送给用户对应的终端设备。
在一种可能的实现方式中,计算用户输入的问题信息与目标问题信息的语义相似度,包括:
计算用户输入的问题信息与目标问题信息之间的N-gram特征参数和语义距离特征参数;将N-gram特征参数和语义距离特征参数进行线性加权计算,根据线性加权计算结果确定用户输入的问题信息与目标问题信息的语义相似度。
其中,对于用户输入的问题信息与目标问题信息之间语义相似度的计算,可以通过将N-gram特征参数和语义距离特征参数进行线性加权计算得到的分数,来确定与用户输入的问题信息相似度最高的目标问题信息。相似度的计算还可以通过其他方式,本申请实施例对此不做限定。
基于与图1中所示方法相同的原理,本申请的实施例中还提供了一种问题信息提取装置,如图2所示,该问题信息提取装置20可以包括:获取模块201、处理模块202、提取模块203;
获取模块201,用于获取目标领域的问题信息;
处理模块202,用于将问题信息进行标准化处理,得到标准化问题信息;
提取模块203,用于从标准化问题信息中提取出满足预设条件的目标问题信息;
其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
在一种可能的实现方式中,装置20还包括去重模块,去重模块用于:
基于目标领域关键词在每个目标问题信息中的词频-逆文本频率TF-IDF将目标问题信息进行聚类,得到多个类别的目标问题信息;
确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据相似度进行去重处理。
在一种可能的实现方式中,装置20还包括答案确定模块,答案确定模块用于:
获取回复信息中的目标领域关键词数量特征参数和回复信息的长度特征参数;
将目标领域关键词数量特征参数和长度特征参数进行加权计算,根据加权计算结果确定答案信息。
在一种可能的实现方式中,装置20还包括关键词确定模块,关键词确定模块用于:
对原始语料进行分词处理,得到候选目标领域关键词;
计算候选目标领域关键词的互信息、左熵以及右熵;
将互信息、左熵以及右熵相加,得到候选目标领域关键词的排序信息;
基于排序信息确定目标领域关键词。
在一种可能的实现方式中,获取模块201具体用于:
将目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域问题信息。
在一种可能的实现方式中,处理模块202具体用于:
计算问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;
将相似度大于预设的第一相似度阈值的问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。
在一种可能的实现方式中,提取模块203具体用于:
利用支持向量机SVM模型从标准化问题信息中提取出目标问题信息。
在一种可能的实现方式中,装置20还包括答案获取模块,答案获取模块包括计算单元和判断单元;
计算单元用于:接收用户输入的问题信息,计算用户输入的问题信息与目标问题信息的语义相似度;
判断单元用于:当语义相似度达到预设的第二相似度阈值时,将目标问题信息对应的答案信息作为用户输入的问题信息对应的答案信息。
在一种可能的实现方式中,计算单元具体用于:
计算用户输入的问题信息与目标问题信息之间的N-gram特征参数和语义距离特征参数;
将N-gram特征参数和语义距离特征参数进行线性加权计算,根据线性加权计算结果确定用户输入的问题信息与目标问题信息的语义相似度。
本申请实施例的问题信息提取装置可执行本申请的实施例所提供的一种问题信息提取方法,其实现原理相类似,本申请各实施例中的问题信息提取装置中的各模块所执行的动作是与本申请各实施例中的问题信息提取方法中的步骤相对应的,对于问题信息提取装置的各模块的详细功能描述具体可以参见前文中所示的对应的问题信息提取方法中的描述,此处不再赘述。
本申请实施例提供的装置,通过获取目标领域的问题信息;然后将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息后,得到问题信息对应的目标问题信息,由于目标问题信息的质量更高,对问答系统更有价值,因此,基于目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。
上述实施例从虚拟模块的角度介绍了问题信息提取装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备3000包括:处理器3001和存储器3003。其中,处理器3001和存储器3003相连,如通过总线3002相连。可选地,电子设备3000还可以包括收发器3004。需要说明的是,实际应用中收发器3004不限于一个,该电子设备3000的结构并不构成对本申请实施例的限定。
处理器3001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器3001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线3002可包括一通路,在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器3003用于存储执行本申请方案的应用程序代码,并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:本申请实施例通过获取目标领域的问题信息;然后将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息后,得到问题信息对应的目标问题信息,由于目标问题信息的质量更高,对问答系统更有价值,因此,基于目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请实施例通过获取目标领域的问题信息;然后将问题信息进行标准化处理,得到标准化问题信息;从标准化问题信息中提取出满足预设条件的目标问题信息;其中,预设条件包括:目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且目标问题信息对应的回复信息的数量达到预设的第二数量阈值。本申请实现了准确提取目标领域的问题信息后,得到问题信息对应的目标问题信息,由于目标问题信息的质量更高,对问答系统更有价值,因此,基于目标问题信息构造的问答系统回复答案的准确性更高,具有更好的性能。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (20)

1.一种问题信息提取方法,其特征在于,包括:
获取目标领域的问题信息;
将所述问题信息进行标准化处理,得到标准化问题信息;
从所述标准化问题信息中提取出满足预设条件的目标问题信息;
其中,所述预设条件包括:所述目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且所述目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
2.根据权利要求1所述的问题信息提取方法,其特征在于,在从所述标准化问题信息中提取出满足预设条件的目标问题信息之后,所述方法还包括:
基于所述目标领域关键词在每个所述目标问题信息中的词频-逆文本频率TF-IDF将所述目标问题信息进行聚类,得到多个类别的目标问题信息;
确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据所述相似度进行去重处理。
3.根据权利要求1或2所述的问题信息提取方法,其特征在于,所述方法还包括:
获取所述回复信息中的目标领域关键词数量特征参数和所述回复信息的长度特征参数;
将所述目标领域关键词数量特征参数和所述长度特征参数进行加权计算,根据加权计算结果确定答案信息。
4.根据权利要求1或2所述的问题信息提取方法,其特征在于,在获取目标领域的问题信息之前,所述方法还包括:
对原始语料进行分词处理,得到候选目标领域关键词;
计算所述候选目标领域关键词的互信息、左熵以及右熵;
将所述互信息、左熵以及右熵相加,得到所述候选目标领域关键词的排序信息;
基于所述排序信息确定目标领域关键词。
5.根据权利要求4所述的问题信息提取方法,其特征在于,获取目标领域的问题信息,包括:
将所述目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域的问题信息。
6.根据权利要求1或2所述的问题信息提取方法,其特征在于,将所述问题信息进行标准化处理,得到标准化问题信息,包括:
计算所述问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;
将相似度大于预设的第一相似度阈值的所述问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。
7.根据权利要求1或2所述的问题信息提取方法,其特征在于,从所述标准化问题信息中提取出满足预设条件的目标问题信息,包括:
利用支持向量机SVM模型从所述标准化问题信息中提取出目标问题信息。
8.根据权利要求1或2所述的问题信息提取方法,其特征在于,所述方法还包括:
接收用户输入的问题信息,计算所述用户输入的问题信息与所述目标问题信息的语义相似度;
当所述语义相似度达到预设的第二相似度阈值时,将所述目标问题信息对应的答案信息作为所述用户输入的问题信息对应的答案信息。
9.根据权利要求8所述的问题信息提取方法,其特征在于,计算所述用户输入的问题信息与所述目标问题信息的语义相似度,包括:
计算所述用户输入的问题信息与所述目标问题信息之间的N-gram特征参数和语义距离特征参数;
将所述N-gram特征参数和所述语义距离特征参数进行线性加权计算,根据线性加权计算结果确定所述用户输入的问题信息与所述目标问题信息的语义相似度。
10.一种问题信息提取装置,其特征在于,包括:
获取模块,用于获取目标领域的问题信息;
处理模块,用于将所述问题信息进行标准化处理,得到标准化问题信息;
提取模块,用于从所述标准化问题信息中提取出满足预设条件的目标问题信息;
其中,所述预设条件包括:所述目标问题信息中的目标领域关键词的数量达到预设的第一数量阈值,并且所述目标问题信息对应的回复信息的数量达到预设的第二数量阈值。
11.根据权利要求10所述的问题信息提取装置,其特征在于,所述装置还包括去重模块,所述去重模块用于:
基于所述目标领域关键词在每个所述目标问题信息中的词频-逆文本频率TF-IDF将所述目标问题信息进行聚类,得到多个类别的目标问题信息;
确定每个类别的目标问题信息中的任意两个目标问题信息的相似度,根据所述相似度进行去重处理。
12.根据权利要求10或11所述的问题信息提取装置,其特征在于,所述装置还包括答案确定模块,所述答案确定模块用于:
获取所述回复信息中的目标领域关键词数量特征参数和所述回复信息的长度特征参数;
将所述目标领域关键词数量特征参数和所述长度特征参数进行加权计算,根据加权计算结果确定答案信息。
13.根据权利要求10或11所述的问题信息提取装置,其特征在于,所述装置还包括关键词确定模块,所述关键词确定模块用于:
对原始语料进行分词处理,得到候选目标领域关键词;
计算所述候选目标领域关键词的互信息、左熵以及右熵;
将所述互信息、左熵以及右熵相加,得到所述候选目标领域关键词的排序信息;
基于所述排序信息确定目标领域关键词。
14.根据权利要求13所述的问题信息提取装置,所述获取模块具体用于:
将所述目标领域关键词与问题信息预料库中的问题信息进行匹配度计算,将匹配度满足预设范围的问题信息作为目标领域的问题信息。
15.根据权利要求10或11所述的问题信息提取装置,其特征在于,所述处理模块具体用于:
计算所述问题信息中的各个词汇与预定的口语化表达词汇表中各个口语化词汇的相似度;
将相似度大于预设的第一相似度阈值的所述问题信息中的词汇进行过滤处理,得到过滤处理后的标准化问题信息。
16.根据权利要求10或11所述的问题信息提取装置,其特征在于,所述提取模块具体用于:
利用支持向量机SVM模型从所述标准化问题信息中提取出目标问题信息。
17.根据权利要求10或11所述的问题信息提取装置,其特征在于,所述装置还包括答案获取模块,所述答案获取模块包括计算单元和判断单元;
所述计算单元用于:接收用户输入的问题信息,计算所述用户输入的问题信息与所述目标问题信息的语义相似度;
所述判断单元用于:当所述语义相似度达到预设的第二相似度阈值时,将所述目标问题信息对应的答案信息作为所述用户输入的问题信息对应的答案信息。
18.根据权利要求17所述的问题信息提取装置,其特征在于,所述计算单元具体用于:
计算所述用户输入的问题信息与所述目标问题信息之间的N-gram特征参数和语义距离特征参数;
将所述N-gram特征参数和所述语义距离特征参数进行线性加权计算,根据线性加权计算结果确定所述用户输入的问题信息与所述目标问题信息的语义相似度。
19.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~9任一项所述的问题信息提取方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1~9中任一项所述的问题信息提取方法。
CN201910457236.0A 2019-05-29 2019-05-29 问题信息提取方法、装置、电子设备和存储介质 Active CN110162614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910457236.0A CN110162614B (zh) 2019-05-29 2019-05-29 问题信息提取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910457236.0A CN110162614B (zh) 2019-05-29 2019-05-29 问题信息提取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110162614A CN110162614A (zh) 2019-08-23
CN110162614B true CN110162614B (zh) 2021-08-27

Family

ID=67629767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910457236.0A Active CN110162614B (zh) 2019-05-29 2019-05-29 问题信息提取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110162614B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434146A (zh) * 2020-11-25 2021-03-02 平安普惠企业管理有限公司 基于关键词的问题排序方法、智能机器人以及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2354967A1 (en) * 2010-01-29 2011-08-10 British Telecommunications public limited company Semantic textual analysis
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2354967A1 (en) * 2010-01-29 2011-08-10 British Telecommunications public limited company Semantic textual analysis
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统

Also Published As

Publication number Publication date
CN110162614A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN109190110B (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN111078837B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN112163153A (zh) 行业标签的确定方法、装置、设备及存储介质
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN110569349A (zh) 基于大数据的患教文章推送方法、系统、设备及存储介质
CN113342958A (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN110162614B (zh) 问题信息提取方法、装置、电子设备和存储介质
CN113934848A (zh) 一种数据分类方法、装置和电子设备
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200730

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms

Applicant before: Tricorn (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant