CN110781275A - 基于多特征的问题可回答性判别方法及计算机存储介质 - Google Patents

基于多特征的问题可回答性判别方法及计算机存储介质 Download PDF

Info

Publication number
CN110781275A
CN110781275A CN201910881528.7A CN201910881528A CN110781275A CN 110781275 A CN110781275 A CN 110781275A CN 201910881528 A CN201910881528 A CN 201910881528A CN 110781275 A CN110781275 A CN 110781275A
Authority
CN
China
Prior art keywords
features
word
article
question
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910881528.7A
Other languages
English (en)
Other versions
CN110781275B (zh
Inventor
徐建
吴蔚
王鑫鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910881528.7A priority Critical patent/CN110781275B/zh
Publication of CN110781275A publication Critical patent/CN110781275A/zh
Application granted granted Critical
Publication of CN110781275B publication Critical patent/CN110781275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多特征的问题可回答性判别方法及计算机存储介质,所述方法包括以下步骤:1)对问题和文章对进行预处理并统计语料信息;2)计算问题和文章的4种交互特征,所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征;所述距离特征为两个句子编码间的距离;所述共现特征为两个句子中的词共现个数;所述归一化点互信息为单词之间的结合紧密程度;所述主题特征为句子语义上的相似度;3)选择阈值并进行分类判别。本发明解决了现有方法无法充分刻画问题和文章特征的不足,充分地挖掘问题和文章的特征以及二者的交互特征,较好地实现了针对给定的问题判断某篇文章是否可以回答该问题。

Description

基于多特征的问题可回答性判别方法及计算机存储介质
技术领域
本发明涉及一种问题可回答性判别方法及计算机存储介质,特别是涉及一种基于多特征的问题可回答性判别方法及计算机存储介质。
背景技术
判断文章是否包含足够的信息回答给定的问题是一个极具挑战性的问题,也是许多其他任务的前提任务,比如:针对社区问题需要判断某个答案能够回复用户提出的问题,针对多文档阅读理解任务需要判断给定的文章能否回答提出的问题。所以该任务是自然语言中非常重要的基础任务,该任务的解决效果直接影响了其他后续任务。现有的判别方法无法充分刻画问题和文章的特征,因而判别效果不够好,所以需要一种能够充分刻画二者及其关系的判别方法。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于多特征的问题可回答性判别方法及计算机存储介质,解决了现有方法无法充分刻画问题和文章特征的不足,充分地挖掘问题和文章的特征以及二者的交互特征,特别是针对军事领域数据的特点进行深度的挖掘和分析,较好地实现了针对给定的问题判断某篇文章是否可以回答该问题。
技术方案:本发明所述的基于多特征的问题可回答性判别方法,包括以下步骤:
(1)对问题和文章对进行预处理并统计语料信息;
(2)计算问题和文章的4种交互特征,所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征;
所述距离特征为两个句子编码间的距离;
所述共现特征为两个句子中的词共现个数;
所述归一化点互信息为单词之间的结合紧密程度;
所述主题特征为句子语义上的相似度;
(3)选择阈值并进行分类判别。
进一步的,步骤(1)具体包括以下步骤:
(1.1)对问题和文章对利用分词器进行分词;
(1.2)针对分词后的文章统计文章个数及文章平均单词个数;
(1.3)根据分词对文章建立索引;
(1.4)针对每个分词后的问题和文章对,分别计算词频,并针对各自的单词进行组合,对组合成的单词对计算归一化点互信息npmi,
Figure BDA0002206013220000021
其中,c12表示两个单词共现词频,ndocs表示单词所在文章的总计词数,c1表示单词1出现词频;c2表示单词2的出现词频。
进一步的,步骤(2)中计算问题q和文章d的距离特征的方法为:
Figure BDA0002206013220000022
其中,f(qi,d)表示问题的单词qi在文章d的出现词频,avg_dl表示在文章d的平均文档长度,
Figure BDA0002206013220000023
D表示文章总个数,nt表示单词qi出现的文章总个数,k1为取正值的调优参数,用于对文档中的词项频率进行缩放控制,b是调节参数,用于决定文档长度的缩放程度。
进一步的,步骤(2)中共现特征的计算方法为:计算文章中的单词个数,计算问题中有多少个连续单词出现在文章中,并计算最大连续个数。
进一步的,步骤(2)中计算归一化点互信息的方法为:针对问题和文章中的单词两两组合,查询二者的npmi值,并针对每个问题计算平均npmi值、最大npmi值和最小npmi值。
进一步的,步骤(2)中计算主题特征的方法为:使用lda聚类方法,将每个词压缩成一个低纬的主题向量,并根据余弦相似度进行聚类。
进一步的,步骤(3)中阈值选择方法为:将数据集按照比例划分训练集和验证集,针对分类器设置不同的阈值,根据每个阈值计算在验证集上的F1值,选择最大F1值的阈值作为判别依据。
进一步的,步骤(3)中分类判别的方法为:将步骤(2)中的交互特征输入xgboost分类器进行二分类判断,分类器的输出为正表示相关,输出为负表示不相关。
本发明所述的计算机存储介质,其上存储有计算机程序,所述计算机程序在被计算机处理器执行时实现上述的基于多特征的问题可回答性判别方法。
有益效果:本发明的显著优点为:1)充分考虑了问题和文章的各种特征,特别是针对军事领域数据的特点,建立了距离特征、共现特征、归一化点互信息和主题特征,尽可能全面的描述问题和文章的关系,距离特征主要计算两个句子编码间的距离,共现特征主要衡量两个句子词共现个数,归一化点互信息主要衡量单词之间的结合紧密程度,主题特征主要衡量句子语义上的相似度;2)针对领域数据选择合适的分类器以及阈值。
附图说明
图1是本方法实施方式的整体流程图。
具体实施方式
本发明主要考虑了问题和文章的4种交互特征,包括距离特征、共现特征、归一化点互信息特征和主题特征。其中,距离特征主要是计算两个句编码间的距离,包括BM25,余弦相似度、欧式距离、最长公共子串和编辑距离;共现特征主要衡量两个句子中的词共现数,直观上说两个句子的共现越多就应该越相似,这里主要考虑1,2,3gram在字符和单次级的共线统计;归一化点互信息npmi特征主要衡量单词之间的结合紧密程度,平均npmi值,最大npmi值,最小nmpi值;主题特征主要从聚类的角度出发,采用了lda这种聚类方法,将每个词压缩成一个低纬的主题向量,并用余弦相似度衡量两个句子在主题上的相似性。经过特征化的数据利用xgboost分类器分类,并根据F1值选择合适的阈值,判断文章是否能够回答给定的问题。该方法在数据集特别是军事领域数据集上取得了较好的效果,当面对海量检索的文章时利用机器进行判断,较好地提高了效率。本发明的方法流程如图1所示,具体为包含3个阶段10个步骤:
阶段1:离线统计语料信息阶段
步骤(1)针对问题和文章对利用jieba分词器分词
步骤(2)针对分词后的文章统计文章总个数以及文章平均单词个数;
步骤(3)针对文章利用lucene建立索引;
步骤(4)针对每个分词后问题文章对,分别计算词频;并针对各自的单词进行组合,对组合成的单词对计算归一化逐点互信息npmi;
Figure BDA0002206013220000031
其中,npmi是计算两个单词的特征,c12表示两个词共现词频,ndocs表示文章总计次数,c1表示单词1出现词频,c2表示单词2的出现词频;
阶段2:实时数据特征化阶段
步骤(5)计算问题和文章的距离特征,
Figure BDA0002206013220000032
其中f(qi,d)表示问题的某个单词在文章d的出现词频,avg_dl表示平均文档长度,
Figure BDA0002206013220000033
D表示文章总个数,nt表示单词qi出现的文章总个数;k1是一个取正值的调优参数,用于对文档中的词项频率进行缩放控制,如果k1取0,则相当于不考虑词频,如果k1取较大的值,那么对应于使用原始词项频率;b是另外一个调节参数(0≤b≤1),决定文档长度的缩放程度,b=1表示基于文档长度对词项权重进行完全的缩放,b=0表示归一化时不考虑文档长度因素,本实施例中,k1=1.2,b=0.75。
步骤(6)问题文章的共现特征:问题中有多少个单词出现在了文章中;统计问题中有多少个连续单词出现在文章中,并求出最大连续个数;
步骤(7)归一化逐点互信息:针对问题和文章中的词两两组和,查询二者的npmi值,并针对每个问题计算平均npim值、最大npmi值和最小npmi值;
步骤(8)主题特征主要从聚类的角度出发,衡量二者的相似性。主要采用了lda聚类方法,将每个词压缩成一个低纬的主题向量,并用余弦相似度衡量两个句子在主题上的相似性。
阶段3:分类模型以及阈值选择阶段
步骤(9)将数据集按照9:1的比例划分训练集和验证集;针对分类器设置不同的阈值,根据每个阈值计算在验证集上的准确率、召回率以及F1值,并选择最大F1的阈值作为判别依据;
F1=2*pre*recall/(pre+recall),
pre为准确率,recall为召回率;
步骤(10)将问题文章对按照上述步骤特征化以后输入分类器进行二分类判断,这里选择xgboost分类器,分类器输出为正表示相关,为负则表示不相关。如果为相关,则判断文章能够回答给定的问题。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于多特征的问题可回答性判别方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (9)

1.一种基于多特征的问题可回答性判别方法,其特征在于,包括以下步骤:
(1)对问题和文章对进行预处理并统计语料信息;
(2)计算问题和文章的4种交互特征,所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征;
所述距离特征为两个句子编码间的距离;
所述共现特征为两个句子中的词共现个数;
所述归一化点互信息为单词之间的结合紧密程度;
所述主题特征为句子语义上的相似度;
(3)选择阈值并进行分类判别。
2.根据权利要求1所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(1)具体包括以下步骤:
(1.1)对问题和文章对利用分词器进行分词;
(1.2)针对分词后的文章统计文章个数及文章平均单词个数;
(1.3)根据分词对文章建立索引;
(1.4)针对每个分词后的问题和文章对,分别计算词频,并针对各自的单词进行组合,对组合成的单词对计算归一化点互信息npmi,
Figure FDA0002206013210000011
其中,c12表示两个单词共现词频,ndocs表示单词所在文章的总计词数,c1表示单词1出现词频;c2表示单词2的出现词频。
3.根据权利要求2所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(2)中计算问题q和文章d的距离特征的方法为:
Figure FDA0002206013210000012
其中,f(qi,d)表示问题的单词qi在文章d的出现词频,avg_dl表示在文章d的平均文档长度,
Figure FDA0002206013210000013
D表示文章总个数,nt表示单词qi出现的文章总个数,k1为取正值的调优参数,用于对文档中的词项频率进行缩放控制,b是调节参数,用于决定文档长度的缩放程度。
4.根据权利要求2所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(2)中共现特征的计算方法为:计算文章中的单词个数,计算问题中有多少个连续单词出现在文章中,并计算最大连续个数。
5.根据权利要求2所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(2)中计算归一化点互信息的方法为:针对问题和文章中的单词两两组合,查询二者的npmi值,并针对每个问题计算平均npmi值、最大npmi值和最小npmi值。
6.根据权利要求2所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(2)中计算主题特征的方法为:使用lda聚类方法,将每个词压缩成一个低纬的主题向量,并根据余弦相似度进行聚类。
7.根据权利要求1所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(3)中阈值选择方法为:将数据集按照比例划分训练集和验证集,针对分类器设置不同的阈值,根据每个阈值计算在验证集上的F1值,选择最大F1值的阈值作为判别依据。
8.根据权利要求1所述的基于多特征的问题可回答性判别方法,其特征在于,步骤(3)中分类判别的方法为:将步骤(2)中的交互特征输入xgboost分类器进行二分类判断,分类器的输出为正表示相关,输出为负表示不相关。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至8任一项所述的方法。
CN201910881528.7A 2019-09-18 2019-09-18 基于多特征的问题可回答性判别方法及计算机存储介质 Active CN110781275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881528.7A CN110781275B (zh) 2019-09-18 2019-09-18 基于多特征的问题可回答性判别方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881528.7A CN110781275B (zh) 2019-09-18 2019-09-18 基于多特征的问题可回答性判别方法及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110781275A true CN110781275A (zh) 2020-02-11
CN110781275B CN110781275B (zh) 2022-05-10

Family

ID=69384222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881528.7A Active CN110781275B (zh) 2019-09-18 2019-09-18 基于多特征的问题可回答性判别方法及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110781275B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858887A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种机场服务的社区问答系统
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN114201962A (zh) * 2021-12-03 2022-03-18 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491433A (zh) * 2018-02-09 2018-09-04 平安科技(深圳)有限公司 聊天应答方法、电子装置及存储介质
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
EP3522029A1 (en) * 2013-06-04 2019-08-07 Google LLC Natural language search results for intent queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3522029A1 (en) * 2013-06-04 2019-08-07 Google LLC Natural language search results for intent queries
CN108491433A (zh) * 2018-02-09 2018-09-04 平安科技(深圳)有限公司 聊天应答方法、电子装置及存储介质
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
程勇等: "基于层级交互网络的文本阅读理解与问答方法研究", 《DATA ANALYSIS AND KNOWLEDGE DISCOVERY》 *
钱强等: "一种基于词共现图的受限领域自动问答系统", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858887A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种机场服务的社区问答系统
CN111858887B (zh) * 2020-07-13 2022-09-20 北京航空航天大学 一种机场服务的社区问答系统
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN114201962A (zh) * 2021-12-03 2022-03-18 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
CN114201962B (zh) * 2021-12-03 2023-07-25 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备

Also Published As

Publication number Publication date
CN110781275B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN106815252B (zh) 一种搜索方法和设备
CN110781275B (zh) 基于多特征的问题可回答性判别方法及计算机存储介质
CN110263821B (zh) 交易特征生成模型的训练、交易特征的生成方法和装置
CN109446416B (zh) 基于词向量模型的法条推荐方法
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN111385602A (zh) 基于多层级多模型的视频审核方法、介质及计算机设备
CN102356393A (zh) 数据处理装置
US20110153601A1 (en) Information analysis apparatus, information analysis method, and program
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN107193915A (zh) 一种企业信息分类方法及装置
CN114117213A (zh) 一种推荐模型训练、推荐方法、装置、介质和设备
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN111178533B (zh) 实现自动半监督机器学习的方法及装置
CN111178537A (zh) 一种特征提取模型训练方法及设备
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN108090117B (zh) 一种图像检索方法及装置,电子设备
CN114691868A (zh) 文本聚类方法、装置及电子设备
CN111625578A (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
Ritha et al. Sentiment analysis of health protocol policy using K-nearest neighbor and cosine similarity
CN111930885B (zh) 文本话题的抽取方法、装置及计算机设备
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant