CN113268566B - 问答对的质量评价方法、装置、设备及存储介质 - Google Patents
问答对的质量评价方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113268566B CN113268566B CN202110592932.XA CN202110592932A CN113268566B CN 113268566 B CN113268566 B CN 113268566B CN 202110592932 A CN202110592932 A CN 202110592932A CN 113268566 B CN113268566 B CN 113268566B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- sentence
- word
- answer pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种问答对的质量评价方法、装置、设备及存储介质,其中方法包括:采用疑问词列表确定含疑问词问句和无疑问词问句;对无疑问词问句进行句法依存关系的分析及问句结构合理判断得到待分析的问句;将所有含疑问词问句的问答对和所有待分析的问句的问答对作为待分析的问答对集合;对待分析的问答对集合进行句子逻辑分计算及将小于句子逻辑分阈值的句子逻辑分的句子的问答对删除得到待处理的问答对集合;对待处理的问答对集合进行语义相关性分计算及将大于语义相关性分阈值的每个目标语义相关性分对应的问答对作为高质量问答对。自动化筛选出了句法完整、句子通顺、问句和答案之间语义相关性符合预设要求的问答对。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种问答对的质量评价方法、装置、设备及存储介质。
背景技术
问答知识库是构建智能问答系统的数据基础,问答对是问答知识库的组成元素。当构建广泛领域的问答知识库时,因需要知识领域的广泛数量庞大,因此需要从书籍、文本、图片和视频等多媒体资源中使用文本抽取或者OCR(光学字符识别)识别,得到文字形式的信息。再从这些文字形式的信息中抽取出问句和答案组成问答对存储在问答知识库中。为保证智能问答系统的健壮性,进入问答知识库的问答对的质量要求较优。质量较优的问答对的具体要求是:(1)问句和答案都要句子通顺,句法完整;(2)要求问句和答案在语义上是相关的,也就是答案是问句的相关答案,不能是完全不相关的内容。
传统的做法是人工收集问答对或从网络问答对中提取,然后将问答对的质量评价看作是高质量和低质量的二分类问题,然而这种方法存在如下问题:(1)人工收集问答对会耗费较多的时间和成本;(2)从网络问答对中提取,会有知识领域单一,知识量有限制的问题;(3)将问答对的质量评价看作是高质量和低质量的二分类问题,忽略了句法完整性、句子通顺、问句和答案之间语义相关性的评估,导致对问答对的质量评价的准确性较低。
发明内容
本申请的主要目的为提供一种问答对的质量评价方法、装置、设备及存储介质,旨在解决现有技术构建智能问答系统的数据基础时,人工收集问答对会耗费较多的时间和成本,从网络问答对中提取,会有知识领域单一和知识量有限制的问题,而将问答对的质量评价看作是高质量和低质量的二分类问题,忽略了句法完整性、句子通顺、问句和答案之间语义相关性的评估,导致对问答对的质量评价的准确性较低的技术问题。
为了实现上述发明目的,本申请提出一种问答对的质量评价方法,所述方法包括:
获取待评估的问答对集合;
获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;
分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;
根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;
将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;
分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;
获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;
分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;
获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
进一步的,所述采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句的步骤,包括:
对目标问答对的问句文本进行分词,得到问句分词结果,其中,所述目标问答对是所述待评估的问答对集合中的任一个所述问答对;
分别将所述问句分词结果中的每个词语在所述疑问词列表中进行查找,得到所述问句分词结果中的各个所述词语各自对应的疑问词匹配结果;
当存在所述疑问词匹配结果为成功时,将所述目标问答对的所述问句文本作为所述含疑问词问句;
当不存在所述疑问词匹配结果为成功时,将所述目标问答对的所述问句文本作为所述无疑问词问句。
进一步的,所述根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句的步骤,包括:
当目标句法依存关系分析结果的开始是核心关系,并且,所述目标句法依存关系分析结果中不存在主谓关系时,确定问句结构分析结果为问句结构不合理,否则,确定所述问句结构分析结果为问句结构合理;
当所述问句结构分析结果为问句结构合理时,将所述目标句法依存关系分析结果对应的所述无疑问词问句作为所述待分析的问句;
其中,所述目标句法依存关系分析结果是各个所述句法依存关系分析结果中的任一个所述句法依存关系分析结果。
进一步的,所述分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分的步骤,包括:
从所述待分析的问答对集合中获取一个句子,作为待计算的句子;
对所述待计算的句子进行分词,得到分词后的句子;
将所述分词后的句子输入词语出现概率预测模型进行词语出现概率的计算,得到所述分词后的句子对应的词语出现概率集合;
将所述词语出现概率集合中的所有所述词语出现概率进行乘积计算,得到待归一化的逻辑分;
对所述待归一化的逻辑分进行归一化处理,得到所述待计算的句子对应的所述目标句子逻辑分;
重复执行所述从所述待分析的问答对集合中获取一个句子,作为待计算的句子的步骤,直至完成所述待分析的问答对集合中的句子的获取。
进一步的,所述分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分的步骤,包括:
从所述待处理的问答对集合中获取一个所述问答对,得到待处理的问答对;
对所述待处理的问答对的问句文本进行分词及停用词去除处理,得到待计算的问句分词结果;
对所述待处理的问答对的答案文本进行分词及停用词去除处理,得到待计算的答案分词结果;
采用TF-IDF关键词提取方法,对所述待计算的问句分词结果进行关键词提取,得到问句关键词集合;
采用所述TF-IDF关键词提取方法,对所述待计算的答案分词结果进行关键词提取,得到答案关键词集合;
根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分;
重复执行所述从所述待处理的问答对集合中获取一个所述问答对,得到待处理的问答对的步骤,直至完成所述待处理的问答对集合中的所述问答对的提取。
进一步的,所述根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分的步骤,包括:
对所述问句关键词集合进行词向量生成,得到问句词向量集合;
对所述答案关键词集合进行词向量生成,得到答案词向量集合;
采用聚类算法,根据所述问句词向量集合,对所述问句关键词集合进行语义相同或相近的关键词聚类,得到问句聚类关键词集合;
采用所述聚类算法,根据所述答案词向量集合,对所述答案关键词集合进行语义相同或相近的关键词聚类,得到答案聚类关键词集合;
分别对所述问句聚类关键词集合中每个关键词进行词向量生成,得到问句聚类词向量集合;
分别对所述答案聚类关键词集合中每个关键词进行词向量生成,得到答案聚类词向量集合;
根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分。
进一步的,所述根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分的步骤,包括:
对所述问句聚类词向量集合进行平均值计算,得到问句平均向量;
对所述答案聚类词向量集合进行平均值计算,得到答案平均向量;
计算所述问句平均向量与所述答案平均向量之间的余弦距离,得到待处理的余弦距离;
对所述问句聚类词向量集合和所述答案聚类词向量集合进行相同关键词的数量计算,得到目标相同关键词数量;
对所述问句聚类词向量集合和所述答案聚类词向量集合进行不重复关键词的数量计算,得到目标关键词总数量;
将所述目标相同关键词数量除以所述目标关键词总数量,得到相同关键词比例;
将所述待处理的余弦距离和所述相同关键词比例进行相加计算及归一化处理,得到所述待处理的问答对对应的所述目标语义相关性分。
本申请还提出了一种问答对的质量评价装置,所述装置包括:
数据获取模块,用于获取待评估的问答对集合;
含疑问词判断模块,用于获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;
句法依存关系分析结果确定模块,用于分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;
待分析的问句确定模块,用于根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;
待分析的问答对集合模块,用于将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;
目标句子逻辑分确定模块,用于分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;
待处理的问答对集合确定模块,用于获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;
目标语义相关性分确定模块,用于分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;
高质量问答对确定模块,用于获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的问答对的质量评价方法、装置、设备及存储介质,通过首先采用疑问词列表,分别对待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个问句文本作为一个含疑问词问句,将不含疑问词的每个问句文本作为一个无疑问词问句,其次分别对每个无疑问词问句进行句法依存关系的分析及问句结构合理判断,将问句结构合理的无疑问词问句作为待分析的问句,将所有含疑问词问句各自对应的问答对和所有待分析的问句各自对应的问答对,作为待分析的问答对集合,其中分别对待分析的问答对集合中的每个句子进行句子逻辑分计算,得到待分析的问答对集合中的各个句子各自对应的目标句子逻辑分,从待分析的问答对集合中,将小于句子逻辑分阈值的目标句子逻辑分对应的句子对应问答对删除,得到待处理的问答对集合,然后分别对待处理的问答对集合中的每个问答对进行问句文本和答案文本之间的语义相关性分计算,得到待处理的问答对集合中的各个问答对各自对应的目标语义相关性分,最后将大于语义相关性分阈值的每个目标语义相关性分对应的问答对作为一个高质量问答对,从而自动化筛选出了句法完整、句子通顺、问句和答案之间语义相关性符合预设要求的问答对,提高了确定的高质量问答对的准确性,提高了确定高质量问答对的效率。
附图说明
图1为本申请一实施例的问答对的质量评价方法的流程示意图;
图2为本申请一实施例的问答对的质量评价装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种问答对的质量评价方法,所述方法包括:
S1:获取待评估的问答对集合;
S2:获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;
S3:分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;
S4:根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;
S5:将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;
S6:分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;
S7:获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;
S8:分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;
S9:获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
本实施例通过首先采用疑问词列表,分别对待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个问句文本作为一个含疑问词问句,将不含疑问词的每个问句文本作为一个无疑问词问句,其次分别对每个无疑问词问句进行句法依存关系的分析及问句结构合理判断,将问句结构合理的无疑问词问句作为待分析的问句,将所有含疑问词问句各自对应的问答对和所有待分析的问句各自对应的问答对,作为待分析的问答对集合,其中分别对待分析的问答对集合中的每个句子进行句子逻辑分计算,得到待分析的问答对集合中的各个句子各自对应的目标句子逻辑分,从待分析的问答对集合中,将小于句子逻辑分阈值的目标句子逻辑分对应的句子对应问答对删除,得到待处理的问答对集合,然后分别对待处理的问答对集合中的每个问答对进行问句文本和答案文本之间的语义相关性分计算,得到待处理的问答对集合中的各个问答对各自对应的目标语义相关性分,最后将大于语义相关性分阈值的每个目标语义相关性分对应的问答对作为一个高质量问答对,从而自动化筛选出了句法完整、句子通顺、问句和答案之间语义相关性符合预设要求的问答对,提高了确定的高质量问答对的准确性,提高了确定高质量问答对的效率。
对于S1,可以从数据库中获取待评估的问答对集合,也可以从第三方应用系统中获取待评估的问答对集合,还可以获取用户输入的待评估的问答对集合。
待评估的问答对集合,是需要进行质量评估的问答对的集合。
待评估的问答对集合中包括一个或多个问答对。问答对包括:问句文本、答案文本,其中,答案文本是针对问句文本中的问题的回答。
对于S2,可以从数据库中获取疑问词列表,也可以从第三方应用系统中获取疑问词列表,还可以获取用户输入的疑问词列表。
疑问词列表中包括一个或多个疑问词。疑问词包括但不限于:谁、如何、么、哪、几时、几、多少、否、能否、怎么、怎的、怎样、怎么样、怎么着、何、为什么、吗、呢、是不是、要不要、会不会中任一个。
其中,采用所述疑问词列表和伪代码,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,所述问句文本中只要含所述疑问词列表中的至少一个疑问词则将该所述问句文本作为含疑问词问句,所述问句文本中不含所述疑问词列表中的任何一个疑问词则将该所述问句文本作为无疑问词问句。
比如,疑问词列表为:ask_word_list=["谁","如何","么","哪","几时","几","多少","否","能否","怎么","怎的","怎样","怎么样","怎么着","何","为什么","吗","呢","是不是","要不要","会不会"],伪代码为:
对于S3,对目标无疑问词问句进行分词,得到无疑问词问句分词结果,其中,所述目标无疑问词问句是各个所述无疑问词问句中的任一个所述无疑问词问句;对所述无疑问词问句分词结果进行句法依存关系的分析,得到所述目标无疑问词问句对应的所述句法依存关系分析结果。
句法依存关系本身是一个树结构,每一个词看成一个节点,依存关系就是一条有向边。句法依存关系包括:主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构、标点符号和核心关系。
可选的,所述对所述无疑问词问句分词结果进行句法依存关系的分析,得到所述目标无疑问词问句对应的所述句法依存关系分析结果的步骤,包括:采用依存句法分析模型,对所述无疑问词问句分词结果进行句法依存关系的分析,得到所述目标无疑问词问句对应的所述句法依存关系分析结果。
依存句法分析模型,是基于3-gram模型(N-Gram模型中的三元模型,)和CRF(条件随机场)训练得到的模型,训练方法在此不做赘述。N-Gram模型,是统计语言模型的算法,它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
对于S4,根据目标句法依存关系分析结果,对所述目标句法依存关系分析结果对应的所述无疑问词问句进行问句结构合理判断,将将问句结构合理的所述无疑问词问句作为待分析的问句,其中,所述目标句法依存关系分析结果是各个所述句法依存关系分析结果中的任一个所述句法依存关系分析结果。
比如,所述目标句法依存关系分析结果对应的所述无疑问词问句是“关于口袋银行个人结售汇业务描述正确的是”,所述目标句法依存关系分析结果是“核心关系--定中关系--定中关系--定中关系--定中关系--主谓关系--介宾关系--动补结构--右附加关系--介宾关系”,所述目标句法依存关系分析结果的开始是核心关系并且含有主谓关系,所述目标句法依存关系分析结果对应的所述无疑问词问句是一个句法完整的句子,因此,所述目标句法依存关系分析结果对应的所述无疑问词问句是问句结构合理的问句,可以将所述目标句法依存关系分析结果对应的所述无疑问词问句作为一个所述待分析的问句,在此举例不做具体限定。
对于S5,将所有所述含疑问词问句各自对应的所述问答对放入待分析的问答对集合,实现将高质量的问句用于下一步分析;所有所述待分析的问句各自对应的所述问答对放入待分析的问答对集合,实现将问句结构合理的所述无疑问词问句对应的所有所述问答对用于下一步分析。从而实现了将待评估的问答对集合中的问句结构合理的所述无疑问词问句对应的问答对进行删除,通过减少噪音提高了问答对的质量评价的效率,也提高了确定高质量问答对的准确性。
对于S6,采用词语出现概率预测模型,分别对所述待分析的问答对集合中的每个句子进行词语出现概率预测,得到所述待分析的问答对集合中的各个句子各自对应的词语出现概率集合;根据所述词语出现概率集合确定所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;其中,词语出现概率预测模型是基于Bert模型训练得到的模型。
可选的,词语出现概率预测模型是基于google预训练好的中文模型chinese_L-12_H-768_A-12训练得到的模型,采用chinese_L-12_H-768_A-12提高了词语出现概率预测模型的准确性。
其中,基于Bert模型得到初始模型;采用MLM训练方法,对所述初始模型进行训练,将训练结束的所述初始模型作为所述词语出现概率预测模型。
初始模型在训练时只预测[Mask]位置的词语,这样就可以同时利用上下文信息,但是训练后的初始模型在后续使用的时候,句子中并不会出现[Mask]的单词,这样会影响模型的性能,因此采用MLM训练方法。MLM训练方法,也就是随机选择句子中15%的词语进行Mask(掩码),在选择为Mask的词语中,有80%真的使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机词语替换。比如,要训练样本的已分词样本句为"如何使用情境销售?",选择了词语"使用"进行Mask,则:
80%的概率使用[Mask]进行替换,将已分词样本句"如何使用情境销售?"转换为句子"如何[Mask]情境销售?",采用"如何[Mask]情境销售?"对初始模型进行训练;
10%的概率不进行替换,保持已分词样本句"如何使用情境销售?"不变,采用"如何使用情境销售?"对初始模型进行训练;
10%的概率使用一个随机词语替换,将词语"使用"替换成另一个随机词语,得到"如何城市情境销售?",采用"如何城市情境销售?"对初始模型进行训练,在此举例不做具体限定。
对于S7,可以从数据库中获取句子逻辑分阈值,也可以从第三方应用系统中获取句子逻辑分阈值,还可以获取用户输入的句子逻辑分阈值,还可以将句子逻辑分阈值写入实现本申请的程序中。
小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子是混乱的句子,因此需要将存在混乱的句子的问答对进行删除处理。
其中,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,将所述待分析的问答对集合中删除后剩余的所有所述问答对作为待处理的问答对集合,也就是说,待处理的问答对集合中的每个句子对应的所述目标句子逻辑分均大于或等于所述句子逻辑分阈值。
对于S8,先分别对所述待处理的问答对集合中的每个所述问答对的问句文本和答案文本进行分词,然后分别对所述待处理的问答对集合中的每个所述问答对进行分词后的问句文本和分词后的答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分。
对于S9,可以从数据库中获取语义相关性分阈值,也可以从第三方应用系统中获取语义相关性分阈值,还可以获取用户输入的语义相关性分阈值,还可以将语义相关性分阈值写入实现本申请的程序中。
所述目标语义相关性分大于所述语义相关性分阈值的所述问答对的问句文本和答案文本之间的语义相关性符合问句和答案之间的语义相关性的预设要求,因此将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对,高质量问答对就是句法完整、句子通顺、问句和答案之间符合预设要求的问答对。
在一个实施例中,上述采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句的步骤,包括:
S21:对目标问答对的问句文本进行分词,得到问句分词结果,其中,所述目标问答对是所述待评估的问答对集合中的任一个所述问答对;
S22:分别将所述问句分词结果中的每个词语在所述疑问词列表中进行查找,得到所述问句分词结果中的各个所述词语各自对应的疑问词匹配结果;
S23:当存在所述疑问词匹配结果为成功时,将所述目标问答对的所述问句文本作为所述含疑问词问句;
S24:当不存在所述疑问词匹配结果为成功时,将所述目标问答对的所述问句文本作为所述无疑问词问句。
本实施例实现了先对问句文本进行分词,然后再进行是否含疑问词判断,从而筛选出高质量的问句(也就是含疑问词问句),低质量的问句(也就是无疑问词问句),为后续对低质量的问句进行不符合要求的问句对应的问答对的滤除提供了基础。
对于S21,对目标问答对的问句文本进行分词,将分词得到的数据作为问句分词结果。
对于S22,分别将所述问句分词结果中的每个词语在所述疑问词列表中进行查找,当词语在所述疑问词列表中查找到疑问词时则将在所述疑问词列表中查找到疑问词的词语对应的疑问词匹配结果为成功,当词语没有在所述疑问词列表中查找到疑问词时则将没有在所述疑问词列表中查找到疑问词的词语对应的疑问词匹配结果为失败。
对于S23,当存在所述疑问词匹配结果为成功时,意味着所述目标问答对的所述问句文本存在至少一个所述疑问词列表中的疑问词,此时可以将所述目标问答对的所述问句文本作为所述含疑问词问句。
对于S24,当不存在所述疑问词匹配结果为成功时,意味着所述目标问答对的所述问句文本没有一个所述疑问词列表中的疑问词,此时可以将所述目标问答对的所述问句文本作为所述无疑问词问句。
比如,所述待评估的问答对集合中的问答对A的问句文本为“包括总体审计策略和具体审计计划”,所述待评估的问答对集合中的问答对B的问句文本为“如何使用情境销售?”,问答对A的问句文本中不含疑问词,问答对B的问句文本中含疑问词“如何”,因此,确定问答对A的问句文本“包括总体审计策略和具体审计计划”为无疑问词问句,确定问答对B的问句文本“如何使用情境销售?”为含疑问词问句,在此举例不做具体限定。
在一个实施例中,上述根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句的步骤,包括:
S41:当目标句法依存关系分析结果的开始是核心关系,并且,所述目标句法依存关系分析结果中不存在主谓关系时,确定问句结构分析结果为问句结构不合理,否则,确定所述问句结构分析结果为问句结构合理;
S42:当所述问句结构分析结果为问句结构合理时,将所述目标句法依存关系分析结果对应的所述无疑问词问句作为所述待分析的问句;
其中,所述目标句法依存关系分析结果是各个所述句法依存关系分析结果中的任一个所述句法依存关系分析结果。
本实施例根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,当所述问句结构分析结果为问句结构合理时将所述目标句法依存关系分析结果对应的所述无疑问词问句作为所述待分析的问句,从而过滤掉存在句法不完整的问答对。
对于S41,当目标句法依存关系分析结果的开始是核心关系,并且,所述目标句法依存关系分析结果中不存在主谓关系时,意味着问句结构不合理,此时可以确定问句结构分析结果为问句结构不合理;当目标句法依存关系分析结果的不是核心关系,或者,所述目标句法依存关系分析结果中存在主谓关系,意味着问句结构合理,此时可以确定所述问句结构分析结果为问句结构合理。
对于S42,当所述问句结构分析结果为问句结构合理时,意味着述问句结构分析结果为问句结构合理对应的所述无疑问词问句是句法完整的问句,因此可以将所述目标句法依存关系分析结果对应的所述无疑问词问句作为所述待分析的问句。
在一个实施例中,上述分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分的步骤,包括:
S61:从所述待分析的问答对集合中获取一个句子,作为待计算的句子;
S62:对所述待计算的句子进行分词,得到分词后的句子;
S63:将所述分词后的句子输入词语出现概率预测模型进行词语出现概率的计算,得到所述分词后的句子对应的词语出现概率集合;
S64:将所述词语出现概率集合中的所有所述词语出现概率进行乘积计算,得到待归一化的逻辑分;
S65:对所述待归一化的逻辑分进行归一化处理,得到所述待计算的句子对应的所述目标句子逻辑分;
S66:重复执行所述从所述待分析的问答对集合中获取一个句子,作为待计算的句子的步骤,直至完成所述待分析的问答对集合中的句子的获取。
本实施例实现了根据词语出现概率进行句子逻辑分的计算,为后续进行句子不通顺的问答对的过滤提供了基础。
对于S61,从所述待分析的问答对集合中获取一个句子(可以是问句文本,也可以是答案文本),将获取的句子作为待计算的句子。也就是说,所述待计算的句子是问句文本或答案文本。
对于S62,对所述待计算的句子进行分词,将分词后的所述待计算的句子作为所述分词后的句子。从而有利于词语出现概率预测模型将所述分词后的句子中的每个词语作为一个token(对象)。
对于S63,将所述分词后的句子输入词语出现概率预测模型进行词语出现概率的计算,将计算得到的所有词语出现概率作为所述分词后的句子对应的词语出现概率集合。
对于S64,将所述词语出现概率集合中的所有所述词语出现概率进行乘积计算,将计算得到的数据作为待归一化的逻辑分。
对于S65,对所述待归一化的逻辑分进行归一化处理,以使归一化得到的数据位于0-1之间(可以包括0,也可以包括1),将归一化得到的数据作为所述待计算的句子对应的所述目标句子逻辑分。
对于S66,重复执行步骤S61至步骤S66,直至完成所述待分析的问答对集合中的句子的获取。
在一个实施例中,上述分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分的步骤,包括:
S81:从所述待处理的问答对集合中获取一个所述问答对,得到待处理的问答对;
S82:对所述待处理的问答对的问句文本进行分词及停用词去除处理,得到待计算的问句分词结果;
S83:对所述待处理的问答对的答案文本进行分词及停用词去除处理,得到待计算的答案分词结果;
S84:采用TF-IDF关键词提取方法,对所述待计算的问句分词结果进行关键词提取,得到问句关键词集合;
S85:采用所述TF-IDF关键词提取方法,对所述待计算的答案分词结果进行关键词提取,得到答案关键词集合;
S86:根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分;
S87:重复执行所述从所述待处理的问答对集合中获取一个所述问答对,得到待处理的问答对的步骤,直至完成所述待处理的问答对集合中的所述问答对的提取。
本实施例依次进行分词、停用词去除处理、关键词提取,根据提取的关键词进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,从而为后续过滤掉问句和答案之间的语义相关性不符合预设要求的问答对提供了基础。
对于S81,依次从所述待处理的问答对集合中获取一个所述问答对,将获取的所述问答对作为待处理的问答对
对于S82,获取停用词列表;对所述待处理的问答对的问句文本进行分词,得到待处理的问句分词结果;采用所述停用词列表,对所述待处理的问句分词结果进行停用词去除处理,得到所述待计算的问句分词结果。
停用词,是对语义影响不大的词,在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。
对于S83,对所述待处理的问答对的答案文本进行分词,得到待处理的答案分词结果;采用所述停用词列表,对所述待处理的答案分词结果进行停用词去除处理,得到所述待计算的答案分词结果。
对于S84,TF-IDF,用于信息检索与数据挖掘的常用加权技术。
采用TF-IDF关键词提取方法,对所述待计算的问句分词结果进行关键词提取,将提取得到的所有关键词作为问句关键词集合。
对于S85,采用TF-IDF关键词提取方法,对所述待计算的答案分词结果进行关键词提取,将提取得到的所有关键词作为答案关键词集合。
对于S86,根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,根据计算的语义相关性分得到所述待处理的问答对对应的所述目标语义相关性分。
对于S87,重复执行步骤S81至步骤S87,直至完成所述待处理的问答对集合中的所述问答对的提取。
在一个实施例中,上述根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分的步骤,包括:
S851:对所述问句关键词集合进行词向量生成,得到问句词向量集合;
S852:对所述答案关键词集合进行词向量生成,得到答案词向量集合;
S853:采用聚类算法,根据所述问句词向量集合,对所述问句关键词集合进行语义相同或相近的关键词聚类,得到问句聚类关键词集合;
S854:采用所述聚类算法,根据所述答案词向量集合,对所述答案关键词集合进行语义相同或相近的关键词聚类,得到答案聚类关键词集合;
S855:分别对所述问句聚类关键词集合中每个关键词进行词向量生成,得到问句聚类词向量集合;
S856:分别对所述答案聚类关键词集合中每个关键词进行词向量生成,得到答案聚类词向量集合;
S857:根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分。
本实施例根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,从而为后续过滤掉问句和答案之间不符合预设要求的问答对提供了基础。
对于S851,采用词向量生成模型,分别对所述问句关键词集合中的每个词进行词向量生成,得到问句词向量集合,词向量生成模型是基于Word2vec(用来产生词向量的相关模型)得到的模型。
对于S852,采用词向量生成模型,分别对所述答案关键词集合中的每个词进行词向量生成,得到答案词向量集合。
对于S853,采用K-Means聚类算法(K均值聚类算法),根据所述问句词向量集合,对所述问句关键词集合进行语义相同或相近的关键词聚类,将聚类得到的所有关键词作为问句聚类关键词集合;其中,K-Means算法的K个簇的K设置为2。
K-Means算法思想是对于给定句子分好的词汇集合,按照样本之间的距离大小,将样本集划分为K个簇,对所述问句关键词集合进行语义相同或相近的关键词聚类时K为2。
其中,随机初始化2个中心点的位置;分别计算所述问句词向量集合中的每个词向量与两个中心点的余弦距离,所述问句词向量集合中的每个词向量被划分到余弦距离最小的中心点对应的群;取每个群中的所有词向量的平均值作为该群的新的中心点;重复执行所述分别计算所述问句词向量集合中的每个词向量与两个中心点的余弦距离,所述问句词向量集合中的每个词向量被划分到余弦距离最小的中心点对应的群的步骤,直至两个中心点的位置都不再变化;取两个群中与中心点之间的余弦距离大于0.8的词向量对应的所有关键词作为所述问句聚类关键词集合。
对于S854,采用K-Means聚类算法,根据所述问句词向量集合,对所述问句关键词集合进行语义相同或相近的关键词聚类,将聚类得到的所有关键词作为答案聚类关键词集合;其中,K-Means算法的K个簇的K设置为3。
其中,随机初始化3个中心点的位置;分别计算所述答案词向量集合中的每个词向量与三个中心点的余弦距离,所述答案词向量集合中的每个词向量被划分到余弦距离最小的中心点对应的群;取每个群中的所有词向量的平均值作为该群的新的中心点;重复执行所述分别计算所述答案词向量集合中的每个词向量与三个中心点的余弦距离,所述答案词向量集合中的每个词向量被划分到余弦距离最小的中心点对应的群的步骤,直至三个中心点的位置都不再变化;取三个群中与中心点之间的余弦距离大于0.8的词向量对应的所有关键词作为所述答案聚类关键词集合。
对于S855,采用词向量生成模型,分别对所述问句聚类关键词集合中每个关键词进行词向量生成,将生成的所有词向量作为得到问句聚类词向量集合。
对于S856,采用词向量生成模型,分别对所述答案聚类关键词集合中每个关键词进行词向量生成,,将生成的所有词向量作为答案聚类词向量集合。
对于S857,根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,根据计算的语义相关性分得到所述待处理的问答对对应的所述目标语义相关性分。
在一个实施例中,上述根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分的步骤,包括:
S8571:对所述问句聚类词向量集合进行平均值计算,得到问句平均向量;
S8572:对所述答案聚类词向量集合进行平均值计算,得到答案平均向量;
S8573:计算所述问句平均向量与所述答案平均向量之间的余弦距离,得到待处理的余弦距离;
S8574:对所述问句聚类词向量集合和所述答案聚类词向量集合进行相同关键词的数量计算,得到目标相同关键词数量;
S8575:对所述问句聚类词向量集合和所述答案聚类词向量集合进行不重复关键词的数量计算,得到目标关键词总数量;
S8576:将所述目标相同关键词数量除以所述目标关键词总数量,得到相同关键词比例;
S8577:将所述待处理的余弦距离和所述相同关键词比例进行相加计算及归一化处理,得到所述待处理的问答对对应的所述目标语义相关性分。
本实施例根据所述问句聚类词向量集合和所述答案聚类词向量集合进行句向量生成,然后进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,从而为后续过滤掉问句和答案之间不符合预设要求的问答对提供了基础。
对于S8571,对所述问句聚类词向量集合进行词向量的平均值计算,将计算得到的数据作为问句平均向量。
对于S8572,对所述答案聚类词向量集合进行词向量的平均值计算,将计算得到的数据作为答案平均向量。
对于S8573,采用余弦距离计算公式,计算所述问句平均向量与所述答案平均向量之间的余弦距离,将计算得到的数据作为待处理的余弦距离。
对于S8574,对所述问句聚类词向量集合和所述答案聚类词向量集合进行相同关键词的数量计算,将计算得到的数据作为目标相同关键词数量。
比如,所述问句聚类词向量集合为[畜禽减免费政策运输调整车辆],所述答案聚类词向量集合为[运输部高速公路车辆通行费种猪冷冻猪肉活畜类活禽类交通免费政策],相同关键词为“车辆”和“政策”,则目标相同关键词数量为2,在此举例不做具体限定。
对于S8575,对所述问句聚类词向量集合和所述答案聚类词向量集合进行不重复关键词的数量计算,将计算得到的数据作为目标关键词总数量。
比如,所述问句聚类词向量集合为[畜禽减免费政策运输调整车辆],所述答案聚类词向量集合为[运输部高速公路车辆通行费种猪冷冻猪肉活畜类活禽类交通免费政策],不重复关键词为[畜禽减免费政策运输调整车辆运输部高速公路通行费种猪冷冻猪肉活畜类活禽类交通免费],目标关键词总数量为15,在此举例不做具体限定。
对于S8576,将所述目标相同关键词数量除以所述目标关键词总数量,将计算得到的数据作为相同关键词比例。
对于S8577,将所述待处理的余弦距离和所述相同关键词比例,得到待归一化的语义相关性分;采用预设归一化公式F,对所述待归一化的语义相关性分进行归一化处理,将预设归一化公式F计算得到的数据作为所述待处理的问答对对应的所述目标语义相关性分。
其中,x是所述待归一化的语义相关性分,e是自然常数。
参照图2,一种问答对的质量评价装置,所述装置包括:
数据获取模块100,用于获取待评估的问答对集合;
含疑问词判断模块200,用于获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;
句法依存关系分析结果确定模块300,用于分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;
待分析的问句确定模块400,用于根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;
待分析的问答对集合模块500,用于将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;
目标句子逻辑分确定模块600,用于分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;
待处理的问答对集合确定模块700,用于获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;
目标语义相关性分确定模块800,用于分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;
高质量问答对确定模块900,用于获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
本实施例通过首先采用疑问词列表,分别对待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个问句文本作为一个含疑问词问句,将不含疑问词的每个问句文本作为一个无疑问词问句,其次分别对每个无疑问词问句进行句法依存关系的分析及问句结构合理判断,将问句结构合理的无疑问词问句作为待分析的问句,将所有含疑问词问句各自对应的问答对和所有待分析的问句各自对应的问答对,作为待分析的问答对集合,其中分别对待分析的问答对集合中的每个句子进行句子逻辑分计算,得到待分析的问答对集合中的各个句子各自对应的目标句子逻辑分,从待分析的问答对集合中,将小于句子逻辑分阈值的目标句子逻辑分对应的句子对应问答对删除,得到待处理的问答对集合,然后分别对待处理的问答对集合中的每个问答对进行问句文本和答案文本之间的语义相关性分计算,得到待处理的问答对集合中的各个问答对各自对应的目标语义相关性分,最后将大于语义相关性分阈值的每个目标语义相关性分对应的问答对作为一个高质量问答对,从而自动化筛选出了句法完整、句子通顺、问句和答案之间语义相关性符合预设要求的问答对,提高了确定的高质量问答对的准确性,提高了确定高质量问答对的效率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存问答对的质量评价方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问答对的质量评价方法。所述问答对的质量评价方法,包括:获取待评估的问答对集合;获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
本实施例通过首先采用疑问词列表,分别对待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个问句文本作为一个含疑问词问句,将不含疑问词的每个问句文本作为一个无疑问词问句,其次分别对每个无疑问词问句进行句法依存关系的分析及问句结构合理判断,将问句结构合理的无疑问词问句作为待分析的问句,将所有含疑问词问句各自对应的问答对和所有待分析的问句各自对应的问答对,作为待分析的问答对集合,其中分别对待分析的问答对集合中的每个句子进行句子逻辑分计算,得到待分析的问答对集合中的各个句子各自对应的目标句子逻辑分,从待分析的问答对集合中,将小于句子逻辑分阈值的目标句子逻辑分对应的句子对应问答对删除,得到待处理的问答对集合,然后分别对待处理的问答对集合中的每个问答对进行问句文本和答案文本之间的语义相关性分计算,得到待处理的问答对集合中的各个问答对各自对应的目标语义相关性分,最后将大于语义相关性分阈值的每个目标语义相关性分对应的问答对作为一个高质量问答对,从而自动化筛选出了句法完整、句子通顺、问句和答案之间语义相关性符合预设要求的问答对,提高了确定的高质量问答对的准确性,提高了确定高质量问答对的效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种问答对的质量评价方法,包括步骤:获取待评估的问答对集合;获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
上述执行的问答对的质量评价方法,通过首先采用疑问词列表,分别对待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个问句文本作为一个含疑问词问句,将不含疑问词的每个问句文本作为一个无疑问词问句,其次分别对每个无疑问词问句进行句法依存关系的分析及问句结构合理判断,将问句结构合理的无疑问词问句作为待分析的问句,将所有含疑问词问句各自对应的问答对和所有待分析的问句各自对应的问答对,作为待分析的问答对集合,其中分别对待分析的问答对集合中的每个句子进行句子逻辑分计算,得到待分析的问答对集合中的各个句子各自对应的目标句子逻辑分,从待分析的问答对集合中,将小于句子逻辑分阈值的目标句子逻辑分对应的句子对应问答对删除,得到待处理的问答对集合,然后分别对待处理的问答对集合中的每个问答对进行问句文本和答案文本之间的语义相关性分计算,得到待处理的问答对集合中的各个问答对各自对应的目标语义相关性分,最后将大于语义相关性分阈值的每个目标语义相关性分对应的问答对作为一个高质量问答对,从而自动化筛选出了句法完整、句子通顺、问句和答案之间语义相关性符合预设要求的问答对,提高了确定的高质量问答对的准确性,提高了确定高质量问答对的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种问答对的质量评价方法,其特征在于,所述方法包括:
获取待评估的问答对集合;
获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;
分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;
根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;
将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;
分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;
获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;
分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;
获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
2.根据权利要求1所述的问答对的质量评价方法,其特征在于,所述采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句的步骤,包括:
对目标问答对的问句文本进行分词,得到问句分词结果,其中,所述目标问答对是所述待评估的问答对集合中的任一个所述问答对;
分别将所述问句分词结果中的每个词语在所述疑问词列表中进行查找,得到所述问句分词结果中的各个所述词语各自对应的疑问词匹配结果;
当存在所述疑问词匹配结果为成功时,将所述目标问答对的所述问句文本作为所述含疑问词问句;
当不存在所述疑问词匹配结果为成功时,将所述目标问答对的所述问句文本作为所述无疑问词问句。
3.根据权利要求1所述的问答对的质量评价方法,其特征在于,所述根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句的步骤,包括:
当目标句法依存关系分析结果的开始是核心关系,并且,所述目标句法依存关系分析结果中不存在主谓关系时,确定问句结构分析结果为问句结构不合理,否则,确定所述问句结构分析结果为问句结构合理;
当所述问句结构分析结果为问句结构合理时,将所述目标句法依存关系分析结果对应的所述无疑问词问句作为所述待分析的问句;
其中,所述目标句法依存关系分析结果是各个所述句法依存关系分析结果中的任一个所述句法依存关系分析结果。
4.根据权利要求1所述的问答对的质量评价方法,其特征在于,所述分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分的步骤,包括:
从所述待分析的问答对集合中获取一个句子,作为待计算的句子;
对所述待计算的句子进行分词,得到分词后的句子;
将所述分词后的句子输入词语出现概率预测模型进行词语出现概率的计算,得到所述分词后的句子对应的词语出现概率集合;
将所述词语出现概率集合中的所有所述词语出现概率进行乘积计算,得到待归一化的逻辑分;
对所述待归一化的逻辑分进行归一化处理,得到所述待计算的句子对应的所述目标句子逻辑分;
重复执行所述从所述待分析的问答对集合中获取一个句子,作为待计算的句子的步骤,直至完成所述待分析的问答对集合中的句子的获取。
5.根据权利要求1所述的问答对的质量评价方法,其特征在于,所述分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分的步骤,包括:
从所述待处理的问答对集合中获取一个所述问答对,得到待处理的问答对;
对所述待处理的问答对的问句文本进行分词及停用词去除处理,得到待计算的问句分词结果;
对所述待处理的问答对的答案文本进行分词及停用词去除处理,得到待计算的答案分词结果;
采用TF-IDF关键词提取方法,对所述待计算的问句分词结果进行关键词提取,得到问句关键词集合;
采用所述TF-IDF关键词提取方法,对所述待计算的答案分词结果进行关键词提取,得到答案关键词集合;
根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分;
重复执行所述从所述待处理的问答对集合中获取一个所述问答对,得到待处理的问答对的步骤,直至完成所述待处理的问答对集合中的所述问答对的提取。
6.根据权利要求5所述的问答对的质量评价方法,其特征在于,所述根据所述问句关键词集合和所述答案关键词集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分的步骤,包括:
对所述问句关键词集合进行词向量生成,得到问句词向量集合;
对所述答案关键词集合进行词向量生成,得到答案词向量集合;
采用聚类算法,根据所述问句词向量集合,对所述问句关键词集合进行语义相同或相近的关键词聚类,得到问句聚类关键词集合;
采用所述聚类算法,根据所述答案词向量集合,对所述答案关键词集合进行语义相同或相近的关键词聚类,得到答案聚类关键词集合;
分别对所述问句聚类关键词集合中每个关键词进行词向量生成,得到问句聚类词向量集合;
分别对所述答案聚类关键词集合中每个关键词进行词向量生成,得到答案聚类词向量集合;
根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分。
7.根据权利要求6所述的问答对的质量评价方法,其特征在于,所述根据所述问句聚类词向量集合和所述答案聚类词向量集合进行所述待处理的问答对的问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对对应的所述目标语义相关性分的步骤,包括:
对所述问句聚类词向量集合进行平均值计算,得到问句平均向量;
对所述答案聚类词向量集合进行平均值计算,得到答案平均向量;
计算所述问句平均向量与所述答案平均向量之间的余弦距离,得到待处理的余弦距离;
对所述问句聚类词向量集合和所述答案聚类词向量集合进行相同关键词的数量计算,得到目标相同关键词数量;
对所述问句聚类词向量集合和所述答案聚类词向量集合进行不重复关键词的数量计算,得到目标关键词总数量;
将所述目标相同关键词数量除以所述目标关键词总数量,得到相同关键词比例;
将所述待处理的余弦距离和所述相同关键词比例进行相加计算及归一化处理,得到所述待处理的问答对对应的所述目标语义相关性分。
8.一种问答对的质量评价装置,其特征在于,所述装置包括:
数据获取模块,用于获取待评估的问答对集合;
含疑问词判断模块,用于获取疑问词列表,采用所述疑问词列表,分别对所述待评估的问答对集合中的每个问答对的问句文本进行是否含疑问词判断,将含疑问词的每个所述问句文本作为一个含疑问词问句,将不含疑问词的每个所述问句文本作为一个无疑问词问句;
句法依存关系分析结果确定模块,用于分别对每个所述无疑问词问句进行句法依存关系的分析,得到各个所述无疑问词问句各自对应的句法依存关系分析结果;
待分析的问句确定模块,用于根据各个所述句法依存关系分析结果,分别对每个所述无疑问词问句进行问句结构合理判断,将问句结构合理的所述无疑问词问句作为待分析的问句;
待分析的问答对集合模块,用于将所有所述含疑问词问句各自对应的所述问答对和所有所述待分析的问句各自对应的所述问答对,作为待分析的问答对集合;
目标句子逻辑分确定模块,用于分别对所述待分析的问答对集合中的每个句子进行句子逻辑分计算,得到所述待分析的问答对集合中的各个句子各自对应的目标句子逻辑分;
待处理的问答对集合确定模块,用于获取句子逻辑分阈值,从所述待分析的问答对集合中,将小于所述句子逻辑分阈值的所述目标句子逻辑分对应的句子对应所述问答对删除,得到待处理的问答对集合;
目标语义相关性分确定模块,用于分别对所述待处理的问答对集合中的每个所述问答对进行问句文本和答案文本之间的语义相关性分计算,得到所述待处理的问答对集合中的各个所述问答对各自对应的目标语义相关性分;
高质量问答对确定模块,用于获取语义相关性分阈值,将大于所述语义相关性分阈值的每个所述目标语义相关性分对应的所述问答对作为一个高质量问答对。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110592932.XA CN113268566B (zh) | 2021-05-28 | 2021-05-28 | 问答对的质量评价方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110592932.XA CN113268566B (zh) | 2021-05-28 | 2021-05-28 | 问答对的质量评价方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268566A CN113268566A (zh) | 2021-08-17 |
CN113268566B true CN113268566B (zh) | 2022-06-14 |
Family
ID=77233457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110592932.XA Active CN113268566B (zh) | 2021-05-28 | 2021-05-28 | 问答对的质量评价方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268566B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062907A (zh) * | 2018-07-17 | 2018-12-21 | 苏州大学 | 融入依存关系的神经机器翻译方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN112559713A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101284788B1 (ko) * | 2009-10-13 | 2013-07-10 | 한국전자통신연구원 | 신뢰도에 기반한 질의응답 장치 및 그 방법 |
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
US20190108290A1 (en) * | 2017-10-06 | 2019-04-11 | ClinMunications, LLC | Human assisted automated question and answer system using natural language processing of real-time requests assisted by humans for requests of low confidence |
-
2021
- 2021-05-28 CN CN202110592932.XA patent/CN113268566B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062907A (zh) * | 2018-07-17 | 2018-12-21 | 苏州大学 | 融入依存关系的神经机器翻译方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN112559713A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113268566A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN111143507B (zh) | 一种基于复合式问题的阅读理解方法 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 | |
CN113268566B (zh) | 问答对的质量评价方法、装置、设备及存储介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN115794743A (zh) | 一种针对专利和期刊文献的综合检索方法及系统 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN114443934A (zh) | 一种基于大数据的相关法律推荐方法 | |
CN103744830A (zh) | 基于语义分析的excel文档中身份信息的识别方法 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN111930880A (zh) | 一种文本编码检索的方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |