CN111460766B - 一种矛盾语块边界识别的方法及装置 - Google Patents
一种矛盾语块边界识别的方法及装置 Download PDFInfo
- Publication number
- CN111460766B CN111460766B CN202010245836.3A CN202010245836A CN111460766B CN 111460766 B CN111460766 B CN 111460766B CN 202010245836 A CN202010245836 A CN 202010245836A CN 111460766 B CN111460766 B CN 111460766B
- Authority
- CN
- China
- Prior art keywords
- contradictory
- character
- data
- original sentence
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种矛盾语块边界识别的方法及装置,所述方法包括:获取带矛盾语块标注的数据集;对所述带矛盾语块标注的数据集预处理,以得到标注后数据;通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;根据所述每个字符最终的标签确定矛盾语块的边界。通过本发明的技术方案,确定了矛盾的具体位置,使得文本矛盾检测具有可解释性。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种矛盾语块边界识别的方法及装置。
背景技术
当两个拥有共同实体的句子不能同时为真时,这两个句子相互矛盾。矛盾语块为导致句子矛盾的最小语言单元。矛盾语块边界识别,是给定相互矛盾的两句话,分别找出导致矛盾的语块位置的任务。
正确理解文本矛盾是自然语言理解中的一项重要环节,然后现有的工作大多关注文本矛盾检测,即存在性判断,并未进一步探究矛盾的具体位置,使得文本矛盾检测缺乏可解释性。
发明内容
本发明提供一种矛盾语块边界识别的方法及装置,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种矛盾语块边界识别的方法,包括:
获取带矛盾语块标注的数据集;
对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
根据所述每个字符最终的标签确定矛盾语块的边界。
在一个实施例中,
所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。
在一个实施例中,所述对所述带矛盾语块标注的数据集预处理,以得到标注后数据,包括:
将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据。
在一个实施例中,所述通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签,包括:
将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
根据所述计算结果确定所述每个字符的最终标签。
在一个实施例中,所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块,所述根据所述每个字符最终的标签确定矛盾语块的边界,包括:
确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
根据本发明实施例的第二方面,提供了一种矛盾语块边界识别的装置,包括:
获取模块,用于获取带矛盾语块标注的数据集;
预处理模块,用于对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
处理模块,用于通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
确定模块,用于根据所述每个字符最终的标签确定矛盾语块的边界。
在一个实施例中,
所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。
在一个实施例中,所述预处理模块,包括:
拼接子模块,用于将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取子模块,用于获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
标注子模块,用于通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据。
在一个实施例中,所述处理模块,包括:
传输子模块,用于将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
第一确定子模块,用于根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
计算子模块,用于将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
第二确定子模块,用于根据所述计算结果确定所述每个字符的最终标签。
在一个实施例中,所述确定模块,包括:
第三确定子模块,用于确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
第四确定子模块,用于确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
本发明的实施例提供的技术方案可以包括以下有益效果:
获取带矛盾语块标注的数据集;进而,对带矛盾语块标注的数据集预处理,能够得到标注后数据;其次,通过BERT和CRF对标注后的数据进行处理,能够得到每个字符最终的标签;最后,根据每个字符最终的标签确定矛盾语块的边界。通过本发明的技术方案,确定了矛盾语块的边界,即确定了矛盾的具体位置,使得文本矛盾检测具有可解释性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种矛盾语块边界识别的方法的流程图;
图2为本发明一实施例中另一种矛盾语块边界识别的方法的流程图;
图3为本发明一实施例中一种矛盾语块边界识别的装置的框图
图4为本发明一实施例中另一种矛盾语块边界识别的装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种矛盾语块边界识别的方法的流程图,如图1所示,该方法可被实施为以下步骤S11-S14:
在步骤S11中,获取带矛盾语块标注的数据集;
在步骤S12中,对带矛盾语块标注的数据集预处理,以得到标注后数据;
在步骤S13中,通过BERT和CRF对标注后的数据进行处理,以得到每个字符最终的标签;
在步骤S14中,根据每个字符最终的标签确定矛盾语块的边界。
获取带矛盾语块标注的数据集;进而,对带矛盾语块标注的数据集预处理,能够得到标注后数据;其次,通过BERT和CRF对标注后的数据进行处理,能够得到每个字符最终的标签;最后,根据每个字符最终的标签确定矛盾语块的边界。通过本发明的技术方案,确定了矛盾语块的边界,即确定了矛盾的具体位置,使得文本矛盾检测具有可解释性。
在一个实施例中,
所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。举例而言:标准数据为“小女孩坐着桌子旁边吃香肠###年轻女孩在吃蛋糕###香肠###蛋糕”其中,###为分隔符。
本实施例中具体的写明了带矛盾语块标注的数据集的组成部分。
如图2所示,在一个实施例中上述步骤S12可被实施为以下步骤S121-S123:
在步骤S121中,将第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;其中,预设分隔符可以是“[SEP]”
在步骤S122中,获取预设标签,其中,预设标签为O、B-First、I-First、B-Second、I-Second;其中,O表示标注的词在文本中没有被矛盾语块覆盖,其余的标签表示标注的词是矛盾语块的一部分,B表示标注的词是矛盾语块中的第一个元素,矛盾语块中的其他元素用I表示,First和Second分别表示第一原始句子和第二原始句子。
在步骤S123中,通过预设标签对拼接后的数据进行标注,以得到标注后的数据。其中,首先通过预设标签对拼接后的数据进行标注,因为标注结果并不能准确无误的确定矛盾语块的位置,因此还要进行后续的操作。
通过对数据集预处理后得到标注后的数据,为矛盾语块的边界的识别提供数据。
在一个实施例中,所述通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签,包括:
将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;其中,状态特征指的是每个字符对应的标注。
根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;其中,命名实体识别中,BERT负责学习输入句子中每个字和符号到对应的实体标签的规律,而CRF负责学习相邻实体标签之间的转移规则。计算结果是指标签与实体最符合的情况。
根据所述计算结果确定所述每个字符的最终标签。
通过本发明的实施例,将矛盾语块的边界识别转化为命名识别,效率更加快。
在一个实施例中,所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块,所述根据所述每个字符最终的标签确定矛盾语块的边界,包括:
确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
通过本实施例能够准确的识别到矛盾语块的边界。
对本发明实施例提供的上述一种矛盾语块边界识别的方法,本发明实施例还提供了一种矛盾语块边界识别的装置,如图3所示,该装置包括:
获取模块31,用于获取带矛盾语块标注的数据集;
预处理模块32,用于对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
处理模块33,用于通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
确定模块34,用于根据所述每个字符最终的标签确定矛盾语块的边界。
在一个实施例中,
所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。
如图4所示,在一个实施例中,所述预处理模块32,包括:
拼接子模块321,用于将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取子模块322,用于获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
标注子模块323,用于通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据。
在一个实施例中,所述处理模块,包括:
传输子模块,用于将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
第一确定子模块,用于根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
计算子模块,用于将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
第二确定子模块,用于根据所述计算结果确定所述每个字符的最终标签。
在一个实施例中,所述确定模块,包括:
第三确定子模块,用于确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
第四确定子模块,用于确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (2)
1.一种矛盾语块边界识别的方法,其特征在于,包括:
获取带矛盾语块标注的数据集;
对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
根据所述每个字符最终的标签确定矛盾语块的边界;
其中,所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块;
其中,所述对所述带矛盾语块标注的数据集预处理,以得到标注后数据,包括:
将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据;
其中,所述通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签,包括:
将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
根据所述计算结果确定所述每个字符的最终标签;
其中,所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块,所述根据所述每个字符最终的标签确定矛盾语块的边界,包括:
确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
2.一种矛盾语块边界识别的装置,其特征在于,包括:
获取模块,用于获取带矛盾语块标注的数据集;
预处理模块,用于对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
处理模块,用于通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
确定模块,用于根据所述每个字符最终的标签确定矛盾语块的边界;
其中,所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块;
其中,所述预处理模块,包括:
拼接子模块,用于将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取子模块,用于获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
标注子模块,用于通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据;
其中,所述处理模块,包括:
传输子模块,用于将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
第一确定子模块,用于根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
计算子模块,用于将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
第二确定子模块,用于根据所述计算结果确定所述每个字符的最终标签;
所述确定模块,包括:
第三确定子模块,用于确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
第四确定子模块,用于确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245836.3A CN111460766B (zh) | 2020-03-31 | 2020-03-31 | 一种矛盾语块边界识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010245836.3A CN111460766B (zh) | 2020-03-31 | 2020-03-31 | 一种矛盾语块边界识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460766A CN111460766A (zh) | 2020-07-28 |
CN111460766B true CN111460766B (zh) | 2023-05-26 |
Family
ID=71686026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010245836.3A Active CN111460766B (zh) | 2020-03-31 | 2020-03-31 | 一种矛盾语块边界识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460766B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116625A (zh) * | 2020-08-25 | 2020-12-22 | 澳门科技大学 | 基于矛盾标记法的心脏ct图像自动分割方法、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
WO2019100458A1 (zh) * | 2017-11-27 | 2019-05-31 | 传神语联网网络科技股份有限公司 | 泰语音节切分的方法及装置 |
CN110192204A (zh) * | 2016-11-03 | 2019-08-30 | 易享信息技术有限公司 | 通过多个语言任务层级处理数据的深度神经网络模型 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11194974B2 (en) * | 2018-08-09 | 2021-12-07 | Nec Corporation | Teaching syntax by adversarial distraction |
-
2020
- 2020-03-31 CN CN202010245836.3A patent/CN111460766B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110192204A (zh) * | 2016-11-03 | 2019-08-30 | 易享信息技术有限公司 | 通过多个语言任务层级处理数据的深度神经网络模型 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
WO2019100458A1 (zh) * | 2017-11-27 | 2019-05-31 | 传神语联网网络科技股份有限公司 | 泰语音节切分的方法及装置 |
Non-Patent Citations (1)
Title |
---|
李博涵 ; 姜姗 ; 刘畅 ; 于东 ; .中文矛盾语块数据集构建和边界识别研究.中文信息学报.2020,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111460766A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086199A (zh) | 一种自动化生成测试脚本的方法、终端和可存储介质 | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
CN108595389A (zh) | 一种将Word文档转换为txt纯文本文档的方法 | |
CN113221555A (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN111552766B (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
CN112037769B (zh) | 一种训练数据生成方法、装置以及计算机可读存储介质 | |
CN111814482A (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN108121715A (zh) | 一种文字标签方法及文字标签装置 | |
CN111460766B (zh) | 一种矛盾语块边界识别的方法及装置 | |
CN109753647A (zh) | 段落的划分方法及装置 | |
EP4057193A1 (en) | Method and system for identifying mislabeled data samples using adversarial attacks | |
CN115344699A (zh) | 文本分类模型的训练方法、装置、计算机设备及介质 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN111062204B (zh) | 基于机器学习的文本标点符号使用错误的识别方法和装置 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN112560428A (zh) | 一种文本处理方法、装置、电子设备及存储介质 | |
CN111967274A (zh) | 标签转换处理方法、装置、电子设备及可读存储介质 | |
KR20090126725A (ko) | 오프라인 학습객체의 온라인 콘텐츠 제공방법 및 시스템 | |
CN112860860A (zh) | 一种答复问题的方法和装置 | |
CN115759048A (zh) | 一种剧本文本处理方法及装置 | |
CN111461330B (zh) | 一种基于多语言简历的多语言知识库构建方法及系统 | |
CN116992824A (zh) | 一种将LaTex公式转为自然语言的方法及系统 | |
CN113515949A (zh) | 使用一般和目标领域知识的弱监督语义实体识别 | |
CN112541341A (zh) | 一种文本事件元素提取方法 | |
CN113626583A (zh) | 文本摘要标注方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |