CN115186649A - 一种基于关系模型的超长文本的切分方法及系统 - Google Patents

一种基于关系模型的超长文本的切分方法及系统 Download PDF

Info

Publication number
CN115186649A
CN115186649A CN202211051608.8A CN202211051608A CN115186649A CN 115186649 A CN115186649 A CN 115186649A CN 202211051608 A CN202211051608 A CN 202211051608A CN 115186649 A CN115186649 A CN 115186649A
Authority
CN
China
Prior art keywords
text
entity
clause
clauses
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211051608.8A
Other languages
English (en)
Other versions
CN115186649B (zh
Inventor
于伟
靳雯
赵洲洋
石江枫
王全修
吴凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202211051608.8A priority Critical patent/CN115186649B/zh
Publication of CN115186649A publication Critical patent/CN115186649A/zh
Application granted granted Critical
Publication of CN115186649B publication Critical patent/CN115186649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明涉及人工智能技术领域,具体涉及一种基于关系模型的超长文本的切分方法及系统,该方法通过将原文本切割为多个子句,然后按照原文本的顺序多个子句进行重组得到多个重组子句,任意相邻的两个重组子句之间具有第一重叠长度的重叠文本,其中第一重叠长度通过预设的重叠长度以及在前重组子句中最后一个子句的长度来确定,在实体被切断时,通过预设重叠长度、切分位置、被切断的实体位置以及实体的最大长度阈值来重新调整最终的切分位置,该方法最终得到的相邻重组子句之间均存在重叠文本,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,同时能够保证实体不被切断,进一步的减少了信息损失。

Description

一种基于关系模型的超长文本的切分方法及系统
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于关系模型的超长文本的切分方法及系统。
背景技术
基于BERT预训练模型,使用序列标注方式解决关系抽取的方案,都存在一个难点,那就是文本超长问题。
目前通常的做法是根据模型能够输入的最大文本长度将原文切割成相同长度的几个子句,并基于子句独立的预测结果,在预测完成之后,根据句子长度计算预测结果在原文中的位置,即可解决文本超长的问题。但是在关系模型中一个句子中的实体往往与上下文中的其他实体之间存在着关系,该切割方法会将关系切断,导致信息损失,BERT预训练模型在预测时很可能会导致抽取的关系不正确。
发明内容
为了解决上述技术问题,本发明的目的在于提供的一种基于关系模型的超长文本的切分方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种基于关系模型的超长文本的切分方法,所述切分方法包括:
S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,…,PN},其中N为正整数;
S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,…,RM},每个重组子句均为关系模型的一个输入;其中,第i个重组子句Ri与第i-1个重组子句Ri-1之间具有重叠文本SPk,SPk为Ri-1中最后一个子句Pk中的文本;其中Ri的获取步骤包括:
S210,根据Pk的文本长度Lk和预设重叠长度OL0计算SLk=min(OL0,Lk),其中,min(OL0,Lk)为取OL0和Lk的最小值作为SPk的重叠长度SLk
S220,根据SLk获取切分位置SDk,当SDk未将第g个实体ag切断时,由切分位置SDk开始累积Pk中的字符得到SPk;当SDk将第g个实体ag切断时,根据实体ag中首字符的位置调整SDk并更新SLk,根据调整后的切分位置SDk开始累积Pk中的字符得到SPk
S230,按照原文本的顺序从Pk+1开始增加子句并累积文本长度,当SLk+∑e j=1Lk+j≤S0且SLk+∑e+1 j=1Lk+j>S0时,确定结束子句为第k+e个子句Pk+e,其中 Lk+j为Pk+j的文本长度,S0为输入关系模型的最大文本长度;
S240,根据Pk+1与Pk+e确定目标子句{Pk+1,Pk+2…,Pk+e},将重叠文本SPk和目标子句{Pk+1,Pk+2…,Pk+e}拼接为Ri
第二方面,本发明另一个实施例提供了基于关系模型的超长文本的切分系统,其特征在于,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述切分方法。
本发明具有如下有益效果:
该方法根据切割位置和实体的位置确定最终得到的相邻重组子句之间的重叠文本,能够保证被切割的子句之间的关系相互关联,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,解决了目前等长度切割时将关系切断的问题,同时能够保证实体不被切断,进一步的减少信息的损失,使关系模型能够更加准确的提取到相应的关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的关系模型输入文本的切分方法流程图;
图2为本发明一个实施例所提供的Ri的获取步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于关系模型的超长文本的切分方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于关系模型的超长文本的切分方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于关系模型的超长文本的切分方法流程图,该方法包括以下步骤:
S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,…,PN},其中N为正整数。
可选的,标点符号为句号、感叹号和问号。利用标点符号切分子句能够防止将子句的语义切断,保留更多更完整的语义信息。
S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,…,RM},每个重组子句均为关系模型的一个输入;其中,第i个重组子句Ri与第i-1个重组子句Ri-1之间具有重叠文本SPk,SPk为Ri-1中最后一个子句Pk中的文本。其中i的取值范围为1到M,k的取值范围为1到N。
具体的,按照子句P中的顺序依次重组得到预设长度的子句,并且任意两个相邻的重组子句之间存在重叠文本,得到M个重组子句{R1,R2,…,Ri-1,Ri…,RM},每个重组子句均为关系模型的一个输入。重叠文本SPk为Ri-1中最后一个子句Pk的文本或者根据预设重叠长度OL0获取的Pk中的一部分文本。任意两个相邻的重组子句之间都具有一定重叠长度的重叠文本,前后重组子句之间形成连续的重叠关系,能够保证被切割的子句之间的关系相互关联,能够保留实体与上下文之间的关系,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,解决了目前等长度切割时将关系切断的问题。
可选的,关系模型为BERT模型。
请参阅图2,其中Ri的获取步骤包括:
S210,根据Pk的文本长度Lk和预设重叠长度OL0计算SLk=min(OL0,Lk),其中,min(OL0,Lk)为取OL0和Lk的最小值作为SPk的重叠长度SLk
可选的,OL0=S0/T,其中T为重叠文本占关系模型的最大文本长度S0的比例。进一步,T的取值为4。
可选的,S0的取值为512,也即输入BERT模型的最大文本长度为S0=512个字符。
需要说明的是,Pk的文本长度Lk和重叠长度SLk不同,Pk的文本长度Lk为Pk这个子句中所包含的字符的数量,也即为Pk整体的文本长度。而重叠长度SLk为Pk中有多少个连续的字符是Ri与Ri-1的重叠字符。例如,Pk为“张三的父亲是王五”,重叠的文本为“是王五”,其中重叠长度SLk=3,文本长度Lk=8。
S220,根据SLk获取切分位置SDk,当SDk未将第g个实体ag切断时,由切分位置SDk开始累积Pk中的字符得到SPk;当SDk将第g个实体ag切断时,根据实体ag中首字符的位置调整SDk并更新SLk,根据调整后的切分位置SDk开始累积Pk中的字符得到SPk
具体的,当SLk=Lk时,是以Ri-1中的最后一句Pk为重叠长度,此时实体不会被切断,因此,此时的切分位置SDk即为Pk的句首,且SPk=Lk,重叠文本SPk为Pk中的所有文本。
当SLk=OL0,是以预设重叠长度作为重叠长度的,根据OL0确定的切分位置SDk可能会将实体切断,因此需要判断切分位置SDk是否将实体切断,若没有将实体切断,则从切分位置SDk开始累积字符,获取相应的重叠文本。其中切分位置SDk为重叠长度为SLk的位置,例如“张三的母亲是王五”且OL0=3,得到切分位置为“是”之间,切分得到两部分“张三的母亲”和“是王五”,此时未将实体切断,则累积得到的重叠文本为“是王五”。
其中,实体的获取步骤包括:将P中的子句输入命名实体识别模型识别P中的实体,得到G个实体a={a1,a2,…,ag,…aG},g的取值范围为1到G。其中,命名实体识别模型的训练集中包括R个训练样本w={w1,w2,…,wR},其中第r个训练样本wr中包括至少一个实体标签,实体标签的首字符标注为“B-姓名”,实体中其他字符为“I-姓名”,将非命名实体的文本均标注为“O”,该命名实体识别模型的损失函数为交叉熵损失函数,在损失函数收敛时训练完成。
其中,实体ag被切断是指,SDk位置实体ag的中间位置,例如实体为“张三”,而切分位置刚好位于“张三”的中间位置,将实体“张三”切分为“张”和“三”。
为了使实体不被切断,利用实体ag中首字符的位置调整SDk
优选的,SLk的更新条件满足:SLk=min(OL' 0,Lk)且OL' 0=OL0-(SW+SDk-D(ag)),式中,SW为相对于实体ag中首字符的向后的偏移量,D(ag)为ag中首个实体字符的位置。可选的,SW=10。
例如,在子句中的每一个字符都有自己的位置编号,该位置编号代表了该字符的位置,对于“…我叫王五,家住在北京市,公司在…”,该子句对应的位置为v={…vc-130,vc-129,vc-128,vc-127,vc-126,vc-125,vc-124,vc-123,vc-122,vc-121,vc-120,vc-119,vc-118,vc-117,vc-116,…”},其中c为该句的最大长度,由于该子句的长度大于OL0=128,因此以128为重叠长度切分子句,但切分位置位于实体“王五”的中间,且“王五”的位置分别为vc-128和vc-127,切分位置SDk为vc-127,D(ag)为vc-128,SW取值为10,因此公式更新OL' 0=128-(10+128-127)=117,得到更新后的长度为117,则新的切分位置为vc-118,由vc-118这个位置切断。能够保证实体不被切断,尽量的保留子句的语义信息不被切断,使最终提取的关系更加准确。
优选的,SLk的更新条件满足:SLk=min(OL' 0,Lk)且OL' 0=OL0+(QW+(SDk-D(ag))),式中,QW为相对于实体ag中首字符的向前的偏移量,D(ag)为ag中首个实体字符的位置。可选的,QW=10。
例如,对于“…张三住在北京市,他的母亲是王五…”,该子句对应的位置为v={…vc-141,vc-140,vc-139,vc-138,vc-137,vc-136,vc-135,vc-134,vc-133,vc-132,vc-131,vc-130,vc-129,vc-128,vc-127,…”},其中c为该句的最大长度,由于该子句的长度大于OL0=128,因此以128为重叠长度切分子句,但切分位置位于实体“王五”的中间,且“王五”的位置分别为vc-128和vc-127,切分位置SDk为vc-127,D(ag)为vc-128,QW取值为10,因此公式更新OL' 0=128+(10+128-127)=139,得到更新后的长度为139,则新的切分位置为vc-138,在切分时,由vc-138这个位置切断。向前偏移能够将被切断的实体调整为重叠文本的一部分,进一步的增加了重叠文本中的实体,使相邻重组子句之间的实体之间的关系更加紧密,也进一步的增加了抽取关系所需要的上下文,使最终抽取的关系更加准确。
S230,按照原文本的顺序从Pk+1开始增加子句并累积文本长度,当SLk+∑e j=1Lk+j≤S0且SLk+∑e+1 j=1Lk+j>S0时,确定结束子句为第k+e个子句Pk+e,其中 Lk+j为Pk+j的文本长度,S0为输入关系模型的最大文本长度。
具体的,获取子句P中每个子句的长度,得到对应的N个子句长度{L1,L2,…,LN};其中子句的长度为子句中包含的字符的数量。当SLk+∑e j=1Lk+j≤S0且SLk+∑e+1 j=1Lk+j>S0时,得到的文本长度是接近于S0,由于在切割子句时时按照标点符号进行切割的,因此在重组子句时按照子句的数量进行重组,保留更多的语义信息,而不是在达到S0直接截断,相对于直接截断的方式保留了更多的语义信息。
S240,根据Pk+1与Pk+e确定目标子句{Pk+1,Pk+2…,Pk+e},将重叠文本SPk和目标子句{Pk+1,Pk+2…,Pk+e}拼接为Ri
需要说明的是,在关系模型训练的过程中,可以将多个Ri放到一个batch中,将batch输入关系模型中进行训练。
综上所述,本发明实施例提供了一种基于关系模型的超长文本的切分方法及系统,该方法通过将原文本切割为多个子句,然后按照原文本的顺序多个子句进行重组得到多个重组子句,获取相邻的两个重组子句Ri-1和Ri之间的重叠文本SPk及其重叠长度SLk,其中重叠长度SLk通过预设重叠长度OL0以及Ri-1中最后一个子句Pk的长度Lk来确定,在实体被切断时,根据实体ag中首字符的位置调整SDk并更新SLk,该方法最终得到的相邻重组子句之间均存在重叠文本,能够保证被切割的子句之间的关系相互关联,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,解决了目前等长度切割时将关系切断的问题,同时能够保证实体不被切断,进一步的减少信息的损失,使关系模型能够更加准确的提取到相应的关系。
优选的,关系模型的训练集包括T个训练样本b={b1,b2,…,bT},其中第t个训练样本bt为无主语实体的训练样本且在隐含主语实体的位置添加第一标记符号。利用T个训练样本b对命名实体模型进行训练得到隐含主语实体,能够解决在进行子句切割时,将文本中原有的主语实体与关系切分到不同子句,导致切分后的子句中无主语实体,进而导致无主语实体的子句无法提取关系的问题。可选的,第一标记符号为“<S>#<T>”。例如,原文本为“张三是北京人……。工作单位是北京钢铁厂……。家住在北京市海淀区人民路。”,在进行子句切分时切分为:“张三是北京人……。”“工作单位是北京钢铁厂……。”“家住在北京市海淀区人民路。”,这样切分会导致后面两句没有主语实体,在抽取关系时,由于后面两句没有主句,因此无法抽取子句中的关系,但是实际上句子中是包含相应关系的,因此,为了解决该问题,在原本中隐含主语实体的位置添加第一标记符号,得到“张三是北京人……。<S>#<T>工作单位是北京钢铁厂……。<S>#<T>家住在北京市海淀区人民路。”,这样便能够成功的提取子句中所包含的关系:{#,工作单位,北京钢铁厂},{#,居住地,北京市海淀区人民路}。在实际测试的过程中,对于切割的重组子句,在重组子句中无主语实体时,在隐含主语的位置添加第一标记符号,将添加了第一标记符号的重组子句输入相应的关系模型预测关系。
基于与上述方法相同的发明构思,本发明实施例还提供了一种基于关系模型的超长文本的切分系统,该系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所提供的切分方法,其中切分方法已经在详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于关系模型的超长文本的切分方法,其特征在于,所述切分方法包括:
S100,根据标点符号对原文本进行分割,得到N个子句P={P1,P2,…,PN},其中N为正整数;
S200,将P中的子句按照原文本顺序重组得到M个重组子句{R1, R2,…,RM},每个重组子句均为关系模型的一个输入;其中,第i个重组子句Ri与第i-1个重组子句Ri-1之间具有重叠文本SPk,SPk为Ri-1中最后一个子句Pk中的文本;其中Ri的获取步骤包括:
S210,根据Pk的文本长度Lk和预设重叠长度OL0计算SLk=min(OL0,Lk),其中,min(OL0,Lk)为取OL0和Lk的最小值作为SPk的重叠长度SLk
S220,根据SLk获取切分位置SDk,当SDk未将第g个实体ag切断时,由切分位置SDk开始累积Pk中的字符得到SPk;当SDk将第g个实体ag切断时,根据实体ag中首字符的位置调整SDk并更新SLk,根据调整后的切分位置SDk开始累积Pk中的字符得到SPk
S230,按照原文本的顺序从Pk+1开始增加子句并累积文本长度,当SLk+∑e j=1Lk+j≤S0且SLk+∑e+1 j=1Lk+j>S0时,确定结束子句为第k+e个子句Pk+e,其中 Lk+j为Pk+j的文本长度,S0为输入关系模型的最大文本长度;
S240,根据Pk+1与Pk+e确定目标子句{Pk+1,Pk+2…,Pk+e},将重叠文本SPk和目标子句{Pk+1,Pk+2…,Pk+e}拼接为Ri
2.根据权利要求1所述的方法,其特征在于,所述S220中SLk的更新条件满足:SLk=min(OL' 0,Lk)且OL' 0=OL0-(SW+SDk-D(ag)),式中,SW为相对于实体ag中首字符的向后的偏移量,D(ag)为ag中首个实体字符的位置。
3.根据权利要求1所述的方法,其特征在于,所述S220中SLk的更新条件满足:SLk=min(OL' 0,Lk)且OL' 0=OL0+(QW+(SDk-D(ag))),式中,QW为相对于实体ag中首字符的向前的偏移量,D(ag)为ag中首个实体字符的位置。
4.根据权利要求1所述的方法,其特征在于,所述S210中OL0=S0/T,T为重叠文本占S0的比例。
5.根据权利要求1所述的方法,其特征在于,所述S220中ag的获取步骤包括:
将P中的子句输入命名实体识别模型识别P中的实体,得到G个实体a={a1,a2,…,ag,…aG},g的取值范围为1到G。
6.根据权利要求1所述的方法,其特征在于,所述关系模型的训练集中包括T个训练样本{b1,b2,…,bT},其中第t个训练样本bt为无主语实体的训练样本且在隐含主语实体的位置添加第一标记符号。
7.根据权利要求1所述的方法,其特征在于,所述标点符号为句号、感叹号和问号。
8.根据权利要求1所述的方法,其特征在于,将多个重组子句放入一个batch中,将batch输入关系模型进行训练。
9.一种基于关系模型的超长文本的切分系统,其特征在于,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的切分方法。
CN202211051608.8A 2022-08-30 2022-08-30 一种基于关系模型的超长文本的切分方法及系统 Active CN115186649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211051608.8A CN115186649B (zh) 2022-08-30 2022-08-30 一种基于关系模型的超长文本的切分方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211051608.8A CN115186649B (zh) 2022-08-30 2022-08-30 一种基于关系模型的超长文本的切分方法及系统

Publications (2)

Publication Number Publication Date
CN115186649A true CN115186649A (zh) 2022-10-14
CN115186649B CN115186649B (zh) 2023-01-06

Family

ID=83523398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211051608.8A Active CN115186649B (zh) 2022-08-30 2022-08-30 一种基于关系模型的超长文本的切分方法及系统

Country Status (1)

Country Link
CN (1) CN115186649B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100365A (zh) * 2020-08-31 2020-12-18 电子科技大学 双阶段文本摘要方法
CN112364656A (zh) * 2021-01-12 2021-02-12 北京睿企信息科技有限公司 一种基于多数据集多标签联合训练的命名实体识别方法
CN112784574A (zh) * 2021-02-02 2021-05-11 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113887211A (zh) * 2021-10-22 2022-01-04 中国人民解放军战略支援部队信息工程大学 基于关系导向的实体关系联合抽取方法及系统
WO2022037256A1 (zh) * 2020-08-21 2022-02-24 腾讯科技(深圳)有限公司 文本语句处理方法、装置、计算机设备和存储介质
CN114707487A (zh) * 2022-03-12 2022-07-05 云知声智能科技股份有限公司 文本处理方法、装置、存储介质及电子装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022037256A1 (zh) * 2020-08-21 2022-02-24 腾讯科技(深圳)有限公司 文本语句处理方法、装置、计算机设备和存储介质
CN112100365A (zh) * 2020-08-31 2020-12-18 电子科技大学 双阶段文本摘要方法
CN112364656A (zh) * 2021-01-12 2021-02-12 北京睿企信息科技有限公司 一种基于多数据集多标签联合训练的命名实体识别方法
CN112784574A (zh) * 2021-02-02 2021-05-11 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113887211A (zh) * 2021-10-22 2022-01-04 中国人民解放军战略支援部队信息工程大学 基于关系导向的实体关系联合抽取方法及系统
CN114707487A (zh) * 2022-03-12 2022-07-05 云知声智能科技股份有限公司 文本处理方法、装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛征山等: "改进机器翻译中的句子切分模型", 《中文信息学报》 *

Also Published As

Publication number Publication date
CN115186649B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN102810097B (zh) 网页正文内容提取方法及装置
CN110516248A (zh) 语音识别结果纠错方法、装置、存储介质和电子设备
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
US20110252010A1 (en) Method and System of Selecting Word Sequence for Text Written in Language Without Word Boundary Markers
CN110675863A (zh) 语音语料生成方法及装置、语音识别方法及装置
CN111881297A (zh) 语音识别文本的校正方法及装置
CN115186649B (zh) 一种基于关系模型的超长文本的切分方法及系统
CN112926313A (zh) 一种槽位信息的提取方法与系统
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
US8886519B2 (en) Text processing apparatus, text processing method, and computer-readable recording medium
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN115936010A (zh) 文本缩写数据处理方法、装置
CN115438655A (zh) 人物性别识别方法、装置、电子设备及存储介质
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN112133309B (zh) 音频和文本的同步方法、计算设备及存储介质
CN112417849A (zh) 英文邮件文本数据处理方法、装置、设备及可存储介质
CN113435217A (zh) 语言测试处理方法、装置及电子设备
CN116992862B (zh) 数控机床异常辅助处理方法、装置、设备及介质
JP2003196636A (ja) 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム
CN112259092A (zh) 一种语音播报方法、装置及语音交互设备
CN112036181A (zh) 实体关系识别方法、装置及计算机可读存储介质
CN110888976A (zh) 一种文本摘要生成方法和装置
Oba et al. Improved sequential dependency analysis integrating labeling-based sentence boundary detection
CN110992939B (zh) 语言模型训练方法、解码方法、装置、存储介质及设备
CN117520474A (zh) 信息抽取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant