CN110825851A - 基于中值转化模型的句子对关系判别方法 - Google Patents
基于中值转化模型的句子对关系判别方法 Download PDFInfo
- Publication number
- CN110825851A CN110825851A CN201911081378.8A CN201911081378A CN110825851A CN 110825851 A CN110825851 A CN 110825851A CN 201911081378 A CN201911081378 A CN 201911081378A CN 110825851 A CN110825851 A CN 110825851A
- Authority
- CN
- China
- Prior art keywords
- sentence
- embedding
- sen
- vector
- sentence pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开基于中值转化模型的句子对关系判别方法,首先将句子分别记为SEN‑A和SEN‑B,所有的SEN‑A构成A句的语料,所有的SEN‑B构成B句的语料。将SEN‑A和SEN‑B通过文本的分布式表示转化为向量形式,然后将A句的向量和B句的向量取平均作为本句子对的向量,就能得到句子对的结构化表示。之后就可以使用机器学习算法对其进行处理,完成下游NLP任务。本发明提出了中值转化模型,借助于文本的分布式模型将句子对转化为结构化数据,从而更有助于下游任务的处理。本发明还依据该模型进行了句子对关系判别实验,实验的效果验证了模型的有效性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及基于中值转化模型的句子对关系判别方法。
背景技术
句子对的表示判别涉及到多个自然语言处理(NLP)领域,比如问题推断,问答系统,对话系统。句子对的表示具有众多应用场景。然而,对句子对的表示目前在业界还较为罕见。实际的应用场景中,面临着如何转化句子对关系任务可能会面临:一、实际各个类的语料分布不平衡的问题;二、句子对的结构化问题。因此,构建一个较好的句子对关系表示模型具有研究价值。对句子对进行表示有助于下游NLP任务的处理。
发明内容
本发明的目的在于提供基于中值转化模型的句子对关系判别方法,利用该方法得到的结果有利于下游的文本任务的处理,提出的中值转化方法能够在不平衡的语料数据上具有良好的性能。
本发明采用的技术方案是:
基于中值转化模型的句子对关系判别方法,其包括以下步骤:
步骤1,搜集所有的句子对SEN-A和SEN-B,所有的SEN-A构成一个A句的语料,所有的SEN-B构成B句的语料,
步骤2,分别将这两个语料中的SEN-A和SEN-B转化为向量形式(embedding化),这可以通过目前流行的文本的分布式模型,比如word2vec,doc2vec,bert。其中doc2vec和bert都有相应的办法直接得到句子的向量,而word2vec能够得到句子中每个词的向量,然后取句子中所有词向量的平均值作为该句的向量。
步骤3,得到了每一个句子的embedding之后,取embedding-a和embedding-b的平均值,即将一个句子对中A句的embedding和B句的embedding相加,再除以2,所得的结果作为这一个句子对的embedding。
步骤4,将每一个句子对的embedding和其标签匹配,得到了结构化的语料集。
步骤5,通过步骤2,就将句子对的关系判别任务转化为普通文本分类任务了,之后就能够使用机器学习分类算法或者深度学习的分类算法构建分类器,输出测试集的预测结果。
本发明采用以上技术方案,提出了中值转化模型,借助于文本的分布式模型将句子对转化为结构化数据,能够较为合理的提取文本的特征,文本句子间的相似关系,从而更有助于下游任务的处理。本发明简便易行,生成速度快,适应语料分布不平衡的场景,同时能够与各类机器学习(深度学习)方法相结合完成更复杂的任务。本发明还依据该模型进行了句子对关系判别实验,实验的效果验证了模型的有效性。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于中值转化模型的句子对关系判别方法的流程示意图。
具体实施方式
如图1所示,SEN-A和SEN-B分别代表句子对中的A句和B句,embedding-a和embedding-b分别代表句子SEN-A和SEN-B的embedding(词嵌入),符号⊕代表将embedding-a与embedding-b相加。本发明公开了基于中值转化模型的句子对关系判别方法,包括以下步骤:
步骤1,搜集所有的句子对SEN-A和SEN-B,所有的SEN-A构成一个A句的语料,所有的SEN-B构成B句的语料,
步骤2,分别将这两个语料中的SEN-A和SEN-B转化为向量形式(embedding化),这可以通过目前流行的文本的分布式模型,比如word2vec,doc2vec,bert。其中doc2vec和bert都有相应的办法直接得到句子的向量,而word2vec能够得到句子中每个词的向量,然后取句子中所有词向量的平均值作为该句的向量。
步骤3,得到了每一个句子的embedding之后,取embedding-a和embedding-b的平均值,即将一个句子对中A句的embedding和B句的embedding相加,再除以2,所得的结果作为这一个句子对的embedding。
步骤4,将每一个句子对的embedding和其标签匹配,得到了结构化的语料集。
步骤5,通过步骤2,就将句子对的关系判别任务转化为普通文本分类任务了,之后就能够使用机器学习分类算法或者深度学习的分类算法构建分类器,输出测试集的预测结果。
本发明的方法适用于结构化的文本语料。这是值,所处理的语料中每个样本是成对出现的,并且每个样本对是有标签的。假如不满足上述条件,可通过调整语料结构构建这样的数据。本专利还适用于分布不平衡的语料,其能够克服语料不平衡的负面影响。
具体的,本发明的有益效果说明如下:
本发明使用中值转化模型,在合同语料上执行二分类任务验证其效果,语料的分布情况见表1.
表1语料分布关系
H省份合同语料 | J省份的合同语料 | 正类样本占比 | |
训练集 | 20332个句子对 | 5000个句子对 | 6.52% |
测试集 | - | 10309个句子对 | 1.92% |
其中,本发明所需要判断的句子对关系:在同一标签的两个句子是否具有连续的上下文关系。本发明使用了H省份和J省份的一批合同语料,由于业务的保密需求,本发明隐去了具体的省份。
通过表1可以看出:语料数量是足够大的,并且语料正负类样本的分布是极不平衡的。
为了验证中值转化方法的有效性,对中值转化的数据使用了两者分类方法进行分类使用来验证。其中一种是多层感知机分类器,它代表了神经网络系列的分类方法,另一种是支持向量机分类器,它代表了机器学习的分类方法。其效果如表2所示。
表2分类器的效果
支持向量机 | 多层感知机 | |
训练集 | 97.21% | 95.35% |
测试集 | 95.21% | 91.93% |
其中,表2中的具体的百分比数值是分类器在各个参数下的宏平均精确率。在支持向量机下,惩罚系数为61,核函数为“rbf”,多层感知机下,神经元数量为280,激活函数为“logistic”。
表2中所有的宏平均数值都达到了90%以上,这证明了本发明这种中值转化方法的有效性。
通过这些数据能够得到以下结论。
1)通过这种中值转化的方法,在特定结构文本上进行实验,使用了多层感知机对测试集的分类最高能够达到91.93%的宏平均精确率。使用支持向量机能够达到95.21%的宏平均精确率。这一来说明了这种中值转化方法是有效的,二来说明了这种方法具有良好的鲁棒性。
2)语料数据的训练集多达15000的样本,其中绝大多数是负类样本,正类样本只占约3%,因此这是一个极其不平衡的语料集。由于关注的是正类样本,因此使用宏平均来衡量分类器的性能,在此情况下,宏平均的最高值能达到91.93%说明本发明的分类方法能够克服语料分布不平衡的影响。
本发明采用以上技术方案,提出了中值转化模型,借助于文本的分布式模型将句子对转化为结构化数据,从而更有助于下游任务的处理。本发明还依据该模型进行了句子对关系判别实验,实验的效果验证了模型的有效性。
Claims (4)
1.基于中值转化模型的句子对关系判别方法,其特征在于:其包括以下步骤:
步骤1,搜集所有的句子对SEN-A和SEN-B,所有的SEN-A构成一个A句的语料,所有的SEN-B构成B句的语料;
步骤2,分别将这两个语料中的SEN-A和SEN-B转化为向量形式得到各个句子对的embedding-a和embedding-b;
步骤3,得到了每个句子的embedding-a和embedding-b取平均值作为该句子对的embedding;
步骤4,将每一个句子对的embedding和其标签匹配,得到了结构化的语料集;
步骤5,以结构化的预料集使用现有成熟的机器学习分类算法或者深度学习的分类算法构建分类器,输出测试集的预测结果。
2.根据权利要求1所述的基于中值转化模型的句子对关系判别方法,其特征在于:步骤2中转化向量形式时采用word2vec、doc2vec、bert或其他文本分布式模型。
3.根据权利要求2所述的基于中值转化模型的句子对关系判别方法,其特征在于:doc2vec和bert直接得到句子的向量;word2vec得到句子中每个词的向量,然后取句子中所有词向量的平均值作为该句的向量。
4.根据权利要求1所述的基于中值转化模型的句子对关系判别方法,其特征在于:步骤3中去平均值的具体方法为:将一个句子对中A句的embedding和B句的embedding相加再除以2,所得的结果作为这一个句子对的embedding。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911081378.8A CN110825851A (zh) | 2019-11-07 | 2019-11-07 | 基于中值转化模型的句子对关系判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911081378.8A CN110825851A (zh) | 2019-11-07 | 2019-11-07 | 基于中值转化模型的句子对关系判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825851A true CN110825851A (zh) | 2020-02-21 |
Family
ID=69553301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911081378.8A Pending CN110825851A (zh) | 2019-11-07 | 2019-11-07 | 基于中值转化模型的句子对关系判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825851A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420785A (zh) * | 2021-05-31 | 2021-09-21 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
US20160358094A1 (en) * | 2015-06-02 | 2016-12-08 | International Business Machines Corporation | Utilizing Word Embeddings for Term Matching in Question Answering Systems |
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN109101537A (zh) * | 2018-06-27 | 2018-12-28 | 北京慧闻科技发展有限公司 | 基于深度学习的多轮对话数据分类方法、装置和电子设备 |
CN110347833A (zh) * | 2019-07-09 | 2019-10-18 | 浙江工业大学 | 一种多轮对话的分类方法 |
-
2019
- 2019-11-07 CN CN201911081378.8A patent/CN110825851A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358094A1 (en) * | 2015-06-02 | 2016-12-08 | International Business Machines Corporation | Utilizing Word Embeddings for Term Matching in Question Answering Systems |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN109101537A (zh) * | 2018-06-27 | 2018-12-28 | 北京慧闻科技发展有限公司 | 基于深度学习的多轮对话数据分类方法、装置和电子设备 |
CN110347833A (zh) * | 2019-07-09 | 2019-10-18 | 浙江工业大学 | 一种多轮对话的分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420785A (zh) * | 2021-05-31 | 2021-09-21 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
CN113420785B (zh) * | 2021-05-31 | 2023-12-19 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Young et al. | Augmenting end-to-end dialogue systems with commonsense knowledge | |
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
CN108717439A (zh) | 一种基于注意力机制和特征强化融合的中文文本分类方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN110069627A (zh) | 短文本的分类方法、装置、电子设备和存储介质 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN112883153B (zh) | 基于信息增强bert的关系分类方法及装置 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
CN109299464B (zh) | 基于网络链接和文档内容的主题嵌入、文档表示方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN114579743A (zh) | 基于注意力的文本分类方法、装置及计算机可读介质 | |
Mostafa et al. | GOF at Arabic hate speech 2022: breaking the loss function convention for data-imbalanced Arabic offensive text detection | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111666375B (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
Wang et al. | YNUWB at SemEval-2019 Task 6: K-max pooling CNN with average meta-embedding for identifying offensive language | |
CN110825851A (zh) | 基于中值转化模型的句子对关系判别方法 | |
CN113392868A (zh) | 一种模型训练的方法、相关装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |