CN109902299B - 一种文本处理方法及装置 - Google Patents

一种文本处理方法及装置 Download PDF

Info

Publication number
CN109902299B
CN109902299B CN201910119924.6A CN201910119924A CN109902299B CN 109902299 B CN109902299 B CN 109902299B CN 201910119924 A CN201910119924 A CN 201910119924A CN 109902299 B CN109902299 B CN 109902299B
Authority
CN
China
Prior art keywords
text
named entity
conflict
participle
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910119924.6A
Other languages
English (en)
Other versions
CN109902299A (zh
Inventor
张金贺
徐安华
欧阳佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910119924.6A priority Critical patent/CN109902299B/zh
Publication of CN109902299A publication Critical patent/CN109902299A/zh
Application granted granted Critical
Publication of CN109902299B publication Critical patent/CN109902299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种文本处理方法及装置,所述方法包括:将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。本申请提供了一种基于语义约束的自动文本换行算法来解决命名实体被割裂在多行显示的标注痛点,保证具有完整语义信息的文本片段显示在一行中,进而节约了用户实体标注的时间,减少了用户在标注实体时鼠标移动的代价,从而提升了标注效率,降低了标注成本。

Description

一种文本处理方法及装置
技术领域
本申请涉及自然语言处理领域,尤其涉及一种文本处理方法及装置。
背景技术
自然语言处理(Natural Language Processing,简称“NLP”)已经极大地影响了当今社会,它是计算机科学领域与人工智能领域中的一个重要方向, 研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 NLP是一门融语言学、计算机科学、数学于一体的科学,包括智能聊天机器人技术、文本生成技术、机器翻译技术、信息抽取技术等。另外,NLP技术主要处理的是人们在生产生活中积累的非结构化数据,将之转化为结构化的信息,并旨在从中挖掘出有价值的信息,从而辅助人们进行思考和决策。
目前,基于机器学习的NLP应用多遵循有监督的策略,即:首先需要利用标注过的语料数据集训练出NLP模型,然后再将该模型部署到生产中,发挥其作用。一个高质量的标注数据集往往决定着NLP应用的最终效果。
作为信息抽取的基石,命名实体识别(Named Entity Recognition,简称“NER”)的效果直接决定了后续信息抽取流程的准确性。命名实体指的是以名称为标识的实际物体,例如人名、地名、公司名等。每一个成熟的NLP 应用都离不开NER技术。为了获得更好的NER效果,各大型公司或组织往往花费大量的资源来雇佣标注者团队,以获取到大规模的命名实体语料库。提升标注的效率将有效节约劳动力、缩短NLP应用的开发周期。
在进行命名实体的标注时,由于显示画面的宽度有限,单篇文档会一般被自动分割成多行显示在固定宽度的标注界面中。在没有任何约束的情况下,一个完整的语义块有很高的概率被分割成多行展现在标注界面中,如图 1所示,其中的待标注实体“张小明”和“中国香港”分别被割裂在两行显示,此时标注者需要将鼠标进行跨行拖动以完成单个命名实体的标注。这种情况下,鼠标的移动距离较大,操作效率比较低。
如何解决现有技术中命名实体被割裂在多行显示的标注痛点,减少用户在标注实体时鼠标移动的代价,从而提升标注效率,降低标注成本,是目前亟待解决的问题。
发明内容
本申请的主要目的在于提出一种文本处理方法,解决了现有技术中命名实体被割裂在多行显示的标注痛点,减少了用户在标注实体时鼠标移动的代价,从而提升了标注效率,降低了标注成本。
为实现上述目的,本申请实施例提供了一种文本处理方法,包括:
将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;
将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
可选地,所述将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合,包括:
对所述待处理文本进行分词,得到对应所述待处理文本的分词集合;
根据预设的命名实体类型抽取所述待处理文本中的命名实体;
获取所述分词集合中与所述命名实体对应的冲突分词;
根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合。
可选地,所述根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合,包括:
比较所述命名实体和与其对应的冲突分词,判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇,如果不存在与所述命名实体不一致的词汇,用所述命名实体替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
可选地,所述根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合,还包括:
如果存在与所述命名实体不一致的词汇,获取所述词汇,将所述词汇作为独立分词与所述命名实体组合成无冲突的分词组合;
用所述无冲突的分词组合替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
可选地,所述将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,包括:
根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组,生成包含一个或多个文本片段组的第二集合,其中,所述文本片段组的宽度不大于所述预设的最大文本行显示宽度;
将所述第二集合中的各个文本片段组独立展示在每一文本行中。
本申请实施例还提供了一种文本处理装置,包括:
语义块切分模块,设置为将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;
文本行规划模块,设置为将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
可选地,所述语义块切分模块,具体设置为:
分词模块,设置为对所述待处理文本进行分词,得到对应所述待处理文本的分词集合;
命名实体抽取模块,设置为根据预设的命名实体类型抽取所述待处理文本中的命名实体;
冲突分词获取模块,设置为获取所述分词集合中与所述命名实体对应的冲突分词;
第一集合获取模块,设置为根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合。
可选地,所述第一集合获取模块,具体设置为:
比较所述命名实体和与其对应的冲突分词,判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇,如果不存在与所述命名实体不一致的词汇,用所述命名实体替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
可选地,所述第一集合获取模块,还具体设置为:
如果存在与所述命名实体不一致的词汇,获取所述词汇,将所述词汇作为独立分词与所述命名实体组合成无冲突的分词组合;
用所述无冲突的分词组合替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
可选地,所述文本行规划模块,具体设置为:
根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组,生成包含一个或多个文本片段组的第二集合,其中,所述文本片段组的宽度不大于所述预设的最大文本行显示宽度;
将所述第二集合中的各个文本片段组独立展示在每一文本行中。
本申请提出的技术方案包括:将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
本申请提供了一种基于语义约束的自动文本换行算法来解决命名实体被割裂在多行显示的标注痛点,保证具有完整语义信息的文本片段显示在一行中,进而节约了用户实体标注的时间,减少了用户在标注实体时鼠标移动的代价,从而提升了标注效率,降低了标注成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1所示为现有技术中待标注实体被割裂在两行显示时的示意图;
图2所示为本申请实施例1的文本处理方法流程图;
图3所示为本申请实施例2的文本处理装置结构图;
图4所示为本申请中待标注实体分别显示在一行中时的示意图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
自动文本换行(Text Wrap)技术应用在几乎所有的文本编辑器中。在给定受限显示宽度的条件下,它能够进行将一篇长的文本转化为长度均衡的子文本行集合。
现有的文本换行算法侧重考虑子文本行长度均衡的约束,采用贪心法或动态规划法生成满足约束的解。然而,在命名实体标注场景中,该方法并不能保证语义块的完整性。
为了保证语义块的完整性,本申请提出一种新的自动文本换行切分算法,保证具有完整语义信息的文本片段显示在一行中,进而节约用户实体标注的时间。
图2所示为本申请实施例1的文本处理方法流程图,包括以下步骤:
步骤201:将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;
本申请中的“待处理文本”可以是在进行命名实体标注之前的原始文本,也可以包括需要使用本申请中的方法进行预处理的其他文本。
为了更能清楚地说明本申请方法中的各步骤,本申请以如下原始文本为例予以说明:
出生于1961年9月27日的张小明,不仅是歌手,还是中国香港男演员、作词人、制片人。
将该原始文本记作d。
在将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合时,可以通过如下步骤实现:
步骤2011:对待处理文本进行分词,得到对应该待处理文本的分词集合;
具体地,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在进行分词时,一般基于分词词典来做。对于一些在分词词典中没有收录的命名实体以及新词,一般不会将其分为一个独立的分词,而是将其拆分为多个词或者同其他词合并成一个分词,比如:对于“出生于1961年9 月27日的张小明,”,基于不同的分词词典,分词后的结果可能是“出生/ 于/1961/年/9/月/27/日/的/张/小明/,”也可能是“出生/于/1961/年/9/月/27/ 日/的张小明/,”,即:人名实体“张小明”分为了两个分词“张”和“小明”,或者分为了包含其他词的分词“的张小明”;
这里,假定将原始文本d经过分词后,生成分词集合如下所示:
出生/于/1961/年/9/月/27/日/的/张/小明/,/不仅/是/歌手/,/还是/中国/香港/男/演员/、/作词/人/、/制片/人/。
其中,每一个分词通过“/”进行分割,分词集合假定为T={t1,t2,…,t|T|},其中|T|表示分词数量。
步骤2012:根据预设的命名实体类型抽取该待处理文本中的命名实体;
具体地,命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的命名实体还包括数字、日期、货币、地址等。其中,通用命名实体类型包括三种:人名、地名、组织机构名。在抽取该待处理文本中的命名实体时,可以将所要抽取的命名实体的类型预设为通用命名实体类型,即抽取该待处理文本中的人名、地名以及组织机构名,也可以根据用户需要扩展为抽取通用命名实体类型之外的其他类型的命名实体。
同样对于原始文本d来说,如果所预设的命名实体类型为通用命名实体类型的话,则人名“张小明”和地名“中国香港”即被抽取出来,所抽取的命名实体构成的实体集合记作E={e1,e2,…,e|E|},其中|E|表示实体数量,这里,|E|为2,e1为“张小明”,e2为“中国香港”。
本申请考虑到命名实体和分词词汇两种异源信息可能会冲突,因此需要一种能够安全的解决冲突的融合策略。通过将分词后的词汇信息和命名实体进行融合,从而避免分词后中将命名实体割裂为两个分词的情况。具体该融合策略的实现,可通过如下步骤:
步骤2013:对于实体集合中的每一个命名实体ei,获取分词集合中与该命名实体对应的冲突分词,记作
Figure RE-GDA0002014173000000071
对于上述原始文本d,通过将分词集合T={t1,t2,…,t|T|}中的分词与命名实体E={e1,e2,…,e|E|}相比较,即可找到与命名实体e1“张小明”相冲突的分词为“张”和“小明”,与命名实体e2“中国香港”相冲突的分词为“中国”和“香港”。
步骤2014:根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合。
在执行本步骤2014时,可以通过如下方式进行:
比较该命名实体和与其对应的冲突分词,判断与该命名实体对应的冲突分词中是否存在与该命名实体不一致的词汇,如果不存在与该命名实体不一致的词汇,用该命名实体替换该分词集合中与其对应的冲突分词,得到该第一集合;
如果存在与该命名实体不一致的词汇,获取该词汇,将该词汇作为独立分词与该命名实体组合成无冲突的分词组合;
用该无冲突的分词组合替换该分词集合中与其对应的冲突分词,得到该第一集合。
具体地,在将命名实体和与其对应的冲突分词进行比较时,可以依据如下规则进行判断:
a、若t∈ei,即:与该命名实体对应的冲突分词中不存在与其不一致的词汇的情况,例如如上例子中,命名实体e1“张小明”和与其相冲突的分词“张”和“小明”之间并不存在除“张小明”之外的其他词汇,这样,即用命名实体e1“张小明”直接替换该分词集合中的“张”和“小明”即可。
b、若ei∈t,即:与该命名实体对应的冲突分词中不仅包括该命名实体,还包括其他词汇,并且在命名实体前后都有词汇。举例来讲:如果基于其他分词词典,原始文本d中的“出生于1961年 9月27日的张小明,”被分词为“出生/于/1961/年/9/月/27/日/ 的张小明,/”,即与命名实体“张小明”相冲突的分词“的张小明,”中不仅包含“张小明”,还包含词汇“的”和“,”,这样,就需要首先得到这些词汇,这些词汇可以表示为 d[start(t):start(ei)]和d[end(ei):end(t)],其中start(t)表示冲突分词的开始位置,end(t)表示冲突分词的结束位置,start(ei)表示命名实体的开始位置,end(ei)表示命名实体的结束位置; d[start(t):start(ei)]表示从冲突分词的开始位置到命名实体的开始位置之间的词汇,d[end(ei):end(t)]表示从冲突分词的结束位置到命名实体的结束位置之间的词汇。上述例子中,d[start(t):start(ei)] 指的是词汇“的”,d[end(ei):end(t)]指的是词汇“,”。在获得这些词汇后,将这些词汇作为独立分词与该命名实体组合成无冲突的分词组合,再用该无冲突的分词组合替换该分词集合中与其对应的冲突分词,得到该第一集合,即:将分词组合“/的/张小明/,/”替换“/的张小明,/”,替换后形成的新的分词集合即为第一集合。
c、若start(t)<start(ei),即:与该命名实体对应的冲突分词中不仅包括该命名实体,还包括其他词汇,并且该词汇仅在命名实体前面。举例来讲:如果基于其他分词词典,原始文本d中的“出生于1961年9月27日的张小明,”被分词为“出生/于/1961/年/9/ 月/27/日/的张小明/,/”,即与命名实体“张小明”相冲突的分词“的张小明”中不仅包含“张小明”,还包含“的”,这样,就需要首先得到该词汇,该词汇可以表示为d[start(t):start(ei)];在获得该词汇后,将该词汇作为独立分词与该命名实体组合成无冲突的分词组合,再用该无冲突的分词组合替换该分词集合中与其对应的冲突分词,得到该第一集合,即:将分词组合“/的/ 张小明/”替换“/的张小明/”,替换后形成的新的分词集合即为第一集合。
d、若end(t)>end(ei),即:与该命名实体对应的冲突分词中不仅包括该命名实体,还包括其他词汇,并且该词汇仅在命名实体后面。举例来讲:如果基于其他分词词典,原始文本d中的“出生于1961年9月27日的张小明,”被分词为“出生/于/1961/ 年/9/月/27/日/的/张小明,/”,即与命名实体“张小明”相冲突的分词“的张小明”中不仅包含“张小明”,还包含“,”,这样,就需要首先得到该词汇,该词汇可以表示为 d[end(ei):end(t)];在获得该词汇后,将该词汇作为独立分词与该命名实体组合成无冲突的分词组合,再用该无冲突的分词组合替换该分词集合中与其对应的冲突分词,得到该第一集合,即:将分词组合“/张小明/,/”替换“/张小明,/”,替换后形成的新的分词集合即为第一集合。
在对实体集合中的每一个命名实体ei通过上述方式处理后,最终形成如下文本片段集合,即第一集合,记作M={m1,m2,…,m|M|}:
出生/于/1961/年/9/月/27/日/的/张小明/,/不仅/是/歌手/,/还是/中国香港 /男/演员/、/作词/人/、/制片/人/。
其中,|M|为集合中文本片段的数量,mi表征第i个文本片段,该集合中包含一个或多个具有完整语义信息的文本片段。
步骤202:将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
在本申请中,最大文本行显示宽度可以根据设计需要而定。
在将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,可以以如下方式进行:
根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组,生成包含一个或多个文本片段组的第二集合,其中,所述文本片段组的宽度不大于所述预设的最大文本行显示宽度;
将所述第二集合中的各个文本片段组独立展示在每一文本行中。
具体地,对于步骤201中所生成的第一集合M={m1,m2,…,m|M|},将其进行分组,划分成第二集合G={g1,g2,…,g|G|},并且满足约束
Figure RE-GDA0002014173000000101
其中L为预设的最大文本行显示宽度,第二集合中的每一个分组被单独显示在标注界面中,同时保证了语义块(即:一个具有完整语义信息的文本片段)的完整性。
语义块宽度计算:对于每一个语义块mi,其宽度定义为(忽略字符间距):
Figure RE-GDA0002014173000000102
公式中|mi|表征mi的字符数量,对于每一个字符
Figure RE-GDA0002014173000000103
宽度是取决于字体和字符类型,字符类型分为如中文、英文、数字等。
设语义块集合对应的宽度集合为WM={w(m1),w(m2),…},基于文本换行算法得到的语义块分组为G={g1,g2,…,g|G|},其中
Figure RE-GDA0002014173000000104
具有宽度:
Figure RE-GDA0002014173000000105
文本自动换行算法在保证每一行(分组)的宽度不超过上限的前提下,要使得每一行的宽度尽量均衡,该问题的数学描述形式为:
Figure RE-GDA0002014173000000106
当x=0时,问题被简化,G只需要满足
Figure RE-GDA0002014173000000107
即为问题的最优解。此时,使用通用的约束最优化算法,如贪心算法,即可来找到符合约束的解 (分组方案)。
如图3所示,本申请的基于语义约束的文本换行算法能够保证待标注实体“张小明”和“中国香港”被显示在同一行中,减少了用户在标注实体时鼠标移动的代价。
这里需要说明的是,本申请提供了一种基于语义约束的自动文本换行算法来解决命名实体被割裂在多行显示的标注痛点,保证具有完整语义信息的文本片段显示在一行中,进而节约了用户实体标注的时间,减少了用户在标注实体时鼠标移动的代价,从而提升了标注效率,降低了标注成本。
图4为本申请实施例2的文本处理装置结构图,如图4所示,该装置包括:
语义块切分模块,设置为将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;
文本行规划模块,设置为将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
具体地,所述语义块切分模块,具体设置为:
分词模块,设置为对所述待处理文本进行分词,得到对应所述待处理文本的分词集合;
命名实体抽取模块,设置为根据预设的命名实体类型抽取所述待处理文本中的命名实体;
冲突分词获取模块,设置为获取所述分词集合中与所述命名实体对应的冲突分词;
第一集合获取模块,设置为根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合。
具体地,所述第一集合获取模块,具体设置为:
比较所述命名实体和与其对应的冲突分词,判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇,如果不存在与所述命名实体不一致的词汇,用所述命名实体替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
具体地,所述第一集合获取模块,还具体设置为:
如果存在与所述命名实体不一致的词汇,获取所述词汇,将所述词汇作为独立分词与所述命名实体组合成无冲突的分词组合;
用所述无冲突的分词组合替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
具体地,所述文本行规划模块,具体设置为:
根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组,生成包含一个或多个文本片段组的第二集合,其中,所述文本片段组的宽度不大于所述预设的最大文本行显示宽度;
将所述第二集合中的各个文本片段组独立展示在每一文本行中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (6)

1.一种文本处理方法,其特征在于,包括:
将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;
对所述待处理文本进行分词,得到对应所述待处理文本的分词集合;
根据预设的命名实体类型抽取所述待处理文本中的命名实体;
获取所述分词集合中与所述命名实体对应的冲突分词;
根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,比较所述命名实体和与其对应的冲突分词,判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇,如果不存在与所述命名实体不一致的词汇,用所述命名实体替换所述分词集合中与其对应的冲突分词,得到所述第一集合;
将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
2.根据权利要求1所述的方法,其特征在于,所述根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,得到所述第一集合,还包括:
如果存在与所述命名实体不一致的词汇,获取所述词汇,将所述词汇作为独立分词与所述命名实体组合成无冲突的分词组合;
用所述无冲突的分词组合替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
3.根据权利要求1~2任一项所述的方法,其特征在于,所述将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,包括:
根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组,生成包含一个或多个文本片段组的第二集合,其中,所述文本片段组的宽度不大于所述预设的最大文本行显示宽度;
将所述第二集合中的各个文本片段组独立展示在每一文本行中。
4.一种文本处理装置,其特征在于,包括:
语义块切分模块,设置为将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合;
其中,语义块切分模块具体设置为包括分词模块、命名实体抽取模块、冲突分词获取模块与第一集合获取模块;
分词模块,设置为对所述待处理文本进行分词,得到对应所述待处理文本的分词集合;
命名实体抽取模块,设置为根据预设的命名实体类型抽取所述待处理文本中的命名实体;
冲突分词获取模块,设置为获取所述分词集合中与所述命名实体对应的冲突分词;
第一集合获取模块,设置为根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理,比较所述命名实体和与其对应的冲突分词,判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇,如果不存在与所述命名实体不一致的词汇,用所述命名实体替换所述分词集合中与其对应的冲突分词,得到所述第一集合;
文本行规划模块,设置为将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示,其中,展示时每一文本行包含一个或多个完整的文本片段,每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。
5.根据权利要求4所述的装置,其特征在于,所述第一集合获取模块,还具体设置为:
如果存在与所述命名实体不一致的词汇,获取所述词汇,将所述词汇作为独立分词与所述命名实体组合成无冲突的分词组合;
用所述无冲突的分词组合替换所述分词集合中与其对应的冲突分词,得到所述第一集合。
6.根据权利要求4~5任一项所述的装置,其特征在于,所述文本行规划模块,具体设置为:
根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组,生成包含一个或多个文本片段组的第二集合,其中,所述文本片段组的宽度不大于所述预设的最大文本行显示宽度;
将所述第二集合中的各个文本片段组独立展示在每一文本行中。
CN201910119924.6A 2019-02-18 2019-02-18 一种文本处理方法及装置 Active CN109902299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910119924.6A CN109902299B (zh) 2019-02-18 2019-02-18 一种文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910119924.6A CN109902299B (zh) 2019-02-18 2019-02-18 一种文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN109902299A CN109902299A (zh) 2019-06-18
CN109902299B true CN109902299B (zh) 2022-11-11

Family

ID=66944965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910119924.6A Active CN109902299B (zh) 2019-02-18 2019-02-18 一种文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN109902299B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825222A (zh) * 2019-10-22 2020-02-21 清华大学 智能设备的文本呈现方法以及智能设备
CN113919287B (zh) * 2021-12-06 2022-02-25 北京来也网络科技有限公司 结合rpa及ai的实体关系标注方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102159220B1 (ko) * 2017-05-11 2020-09-23 경희대학교 산학협력단 효과적인 대화 관리를 위한 의료 시스템에서의 의도-컨텍스트 융합 방법
CN107315737B (zh) * 2017-07-04 2021-03-23 北京奇艺世纪科技有限公司 一种语义逻辑处理方法及系统
CN107943860B (zh) * 2017-11-08 2020-10-27 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN107943919B (zh) * 2017-11-21 2019-11-12 华中科技大学 一种面向会话式实体搜索的查询扩展方法
CN108763510B (zh) * 2018-05-30 2021-10-15 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN109101492A (zh) * 2018-07-25 2018-12-28 南京瓦尔基里网络科技有限公司 一种自然语言处理中使用历史对话行为进行实体提取的方法及系统

Also Published As

Publication number Publication date
CN109902299A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN107608949B (zh) 一种基于语义模型的文本信息抽取方法及装置
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN113177124A (zh) 一种垂直领域知识图谱构建方法及系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN106528536A (zh) 一种基于词典与文法分析的多语种分词方法
US20210209289A1 (en) Method and apparatus for generating customized content based on user intent
CN109902299B (zh) 一种文本处理方法及装置
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN102135956B (zh) 一种基于词位标注的藏文分词方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN109948518A (zh) 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN109299470A (zh) 文本公告中触发词的抽取方法及系统
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN113010593B (zh) 非结构化文本的事件抽取方法、系统及装置
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN112101007A (zh) 一种从非结构化文本数据中提取结构化数据的方法及系统
CN111368532A (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN105631032A (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
CN109325225B (zh) 一种通用的基于关联的词性标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant