CN112784574B - 一种文本分割方法、装置、电子设备及介质 - Google Patents

一种文本分割方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN112784574B
CN112784574B CN202110145811.0A CN202110145811A CN112784574B CN 112784574 B CN112784574 B CN 112784574B CN 202110145811 A CN202110145811 A CN 202110145811A CN 112784574 B CN112784574 B CN 112784574B
Authority
CN
China
Prior art keywords
segmentation
text
clause
verbs
clauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110145811.0A
Other languages
English (en)
Other versions
CN112784574A (zh
Inventor
黄诗磊
孙振华
张聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110145811.0A priority Critical patent/CN112784574B/zh
Publication of CN112784574A publication Critical patent/CN112784574A/zh
Application granted granted Critical
Publication of CN112784574B publication Critical patent/CN112784574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种文本分割方法、装置、电子设备及介质,包括:根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;根据依存句法分割每个粗分割子句,获得至少一个细分割子句;从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。本申请实施例能够准确快速地将连续文本分割成多个语义完整的子句,从而达到有效提高文本分割结果的准确性,改善人机交互系统的性能和用户体验的技术效果。

Description

一种文本分割方法、装置、电子设备及介质
技术领域
本申请涉及文本处理领域,具体而言,涉及一种文本分割方法、装置、电子设备及介质。
背景技术
随着人工智能技术的快速发展,人机交互系统的性能已经基本满足人们的实用需求。例如,人们可以通过语音对话或者文本输入与机器进行交互。通常,人机语音接口使用自动语音识别系统将用户语音转换成文字以供下一步的处理,然而,语音识别的结果是没有任何标点符号的连续文本,这种语音识别的结果在无断句的情况下无法被分析或者转换。此外,当人机文本接口接收到句式比较复杂的文本时,基于当前自然语言处理模块的技术局限性,难以处理。
为了解决上述问题,文本分割技术应运而生,通过文本分割技术可将语音识别结果或者复杂的文本划分成多个简单句子,以供下一步处理。然而,现有的基于统计的文本分割方法仅考虑词语的共现频率,而忽略了词语或者句子的语义信息以及词语与词语之间的句法依存关系,这导致该方法分割性能受限,难以处理较为复杂的文本。此外,现有的基于文本分割模型的文本分割方法虽然分割准确率较高,但是训练文本分割模型需要大量的训练数据,难以适用于少样本的情况。
发明内容
有鉴于此,本申请的目的在于提供一种文本分割方法、装置、电子设备及介质,能够准确快速地将连续文本分割成多个语义完整的子句,从而达到有效提高文本分割结果的准确性,改善人机交互系统的性能和用户体验的技术效果。
第一方面,本申请实施例提供了一种文本分割方法,所述文本分割方法包括:
根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
根据依存句法分割每个粗分割子句,获得至少一个细分割子句;
从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述文本分割方法还包括:
如果未筛选出动词超过预定数目的细分割子句,则将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述根据所述待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句,包括:
确定所述待分割文本中是否存在标点符号;
如果所述待分割文本中存在标点符号,则识别所述待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句;
如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。
在一种可能的实施方式中,所述根据依存句法分割每个粗分割子句,获得至少一个细分割子句,包括:
通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系;
针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系;
如果词语之间存在属于动词的并列关系的依存关系,则按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的词语中的首个词语确定为核心词;
以所述核心词所在位置为起点,向右搜索与所述核心词具有除动词的并列关系之外的依存关系的词语;
在搜索的过程中,将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语与之前的上一个词语之间的边界确定为分割点;
基于所述分割点对相应的粗分割子句进行分割,获得至少一个细分割子句。
在一种可能的实施方式中,所述根据依存句法分割每个粗分割子句,获得至少一个细分割子句,还包括:
如果词语之间不存在属于动词的并列关系的依存关系,则将词语之间不存在属于动词的并列关系的依存关系的粗分割子句确定为细分割子句。
在一种可能的实施方式中,所述对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果,包括:
使用预先训练好的机器学习模型对筛选出的动词超过预定数目的细分割子句执行人工智能相关的运算,获得筛选出的动词超过预定数目的细分割子句的子句分割结果;
将所述至少一个细分割子句中动词未超过预定数目的细分割子句和所述子句分割结果确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述机器学习模型通过以下方式训练而被得到:
获取语料训练数据集;
基于获取的语料训练数据集,利用序列标注算法来训练用于预测细分割子句的子句分割结果的机器学习模型,
其中,所述语料训练数据集通过以下方式被获取:
获取单句语料,并过滤所述单句语料;
将过滤后的单句语料进行随机拼接,获得多个拼接语料;
确定每个拼接语料的困惑度值,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。
在一种可能的实施方式中,所述特定标点符号包括以下项中的至少一种:逗号、分号、句号、问号、感叹号和省略号。
第二方面,本申请实施例提供了一种文本分割装置,所述文本分割装置包括:
粗分割子句获取模块,根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
细分割子句获取模块,根据依存句法分割每个粗分割子句,获得至少一个细分割子句;
筛选模块,从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
确定模块,如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
在一种可能的实施方式中,如果所述筛选模块未筛选出动词超过预定数目的细分割子句,则所述确定模块具体用于将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述粗分割子句获取模块具体用于:
确定所述待分割文本中是否存在标点符号;
如果所述待分割文本中存在标点符号,则识别所述待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句;
如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。
在一种可能的实施方式中,所述细分割子句获取模块具体用于:
通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系;
针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系;
如果词语之间存在属于动词的并列关系的依存关系,则按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的词语中的首个词语确定为核心词;
以所述核心词所在位置为起点,向右搜索与所述核心词具有除动词的并列关系之外的依存关系的词语;
在搜索的过程中,将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语与之前的上一个词语之间的边界确定为分割点;
基于所述分割点对相应的粗分割子句进行分割,获得至少一个细分割子句。
在一种可能的实施方式中,所述细分割子句获取模块还具体用于:
如果词语之间不存在属于动词的并列关系的依存关系,则将词语之间不存在属于动词的并列关系的依存关系的粗分割子句确定为细分割子句。
在一种可能的实施方式中,所述确定模块具体用于:
使用预先训练好的机器学习模型对筛选出的动词超过预定数目的细分割子句执行人工智能相关的运算,获得筛选出的动词超过预定数目的细分割子句的子句分割结果;
将所述至少一个细分割子句中动词未超过预定数目的细分割子句和所述子句分割结果确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述机器学习模型通过以下方式训练而被得到:
获取语料训练数据集;
基于获取的语料训练数据集,利用序列标注算法来训练用于预测细分割子句的子句分割结果的机器学习模型,
其中,所述语料训练数据集通过以下方式被获取:
获取单句语料,并过滤所述单句语料;
将过滤后的单句语料进行随机拼接,获得多个拼接语料;
确定每个拼接语料的困惑度值,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。
在一种可能的实施方式中,所述特定标点符号包括以下项中的至少一种:逗号、分号、句号、问号、感叹号和省略号。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的文本分割方法、装置、电子设备及介质,能够使用混合方式对待分割文本进行分割,例如,在使用标点符号分割和依存句法分割后,对于存在超过预定数目个动词的复杂子句时,采用从语义分析的方法对复杂子句进行再分割,对于未超过预定数目个动词的简单子句,无需采用语义分析的方法进行再分割,直接确定文本分割结果。通过这种方式,能够准确快速地将连续文本分割成多个语义完整的子句,从而达到有效提高文本分割结果的准确性,改善人机交互系统的性能和用户体验的技术效果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种文本分割方法的流程图;
图2示出了本申请实施例所提供的粗分割子句的依存关系的示意图;
图3示出了本申请另一实施例所提供的粗分割子句的依存关系的示意图;
图4示出了本申请实施例所提供的一种文本分割装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
在本申请提出之前,现有的文本分割方法是基于统计的文本分割方法和基于序列标注的神经网络的文本分割方法,其中,基于统计的文本分割方法是:统计语料的n元共现频率,基于估计语料的n元正向依存概率和n元逆向依存概率,采用最大熵模型进行建模来对文本进行分割。基于序列标注的神经网络的文本分割方法是:使用神经网络对连续文本进行语义编码,然后对文本所包括的每个词语进行标签预测(B、I、E),其中,B表示句子开头,E表示句子结尾,I表示句子中间,基于生成的标签序列进行文本分割。
然而,上述基于统计的文本分割方法仅考虑词语的共现频率,而忽略了词语或者句子的语义信息以及词语与词语之间的句法依存信息,这导致该文本分割方法的分割性能受限,难以处理较为复杂的文本。此外,现有的基于文本分割模型的文本分割方法(即,基于序列标注的神经网络的文本分割方法)虽然分割准确率较高,但是训练文本分割模型需要大量的训练数据,难以适用于少样本的情况。基于此,本申请实施例提供了一种文本分割方法、装置、电子设备及介质,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种文本分割方法进行详细介绍。
请参照图1,图1为本申请实施例所提供的一种文本分割方法的流程图。如图1所示,本申请实施例提供的文本分割方法,可以包括以下步骤:
步骤S101、根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
步骤S102、根据依存句法分割每个粗分割子句,获得至少一个细分割子句;
步骤S103、从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
步骤S104、如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
作为示例,在步骤S101中,确定待分割文本中是否存在标点符号,如果待分割文本中存在标点符号,则识别待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句。如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。
这里,待处理文本可通过用户输入的语音或者文本来获取,例如,可通过人机交互机器的人机语音接口获取用户的语音,使用自动语音识别ASR系统将用户语音转换成连续文本以作为待处理文本,或者,通过人机交互机器的人机文本接口获取用户输入的文本,将用户输入的文本作为待处理文本。需要说明的是,以上获取待分割文本的方式仅仅是为了教导本领域技术人员如何实施,本发明实施例不限于此,也可以通过其他方式获取待分割文本,例如,通过扫描图片来获取待分割文本等。
此外,特定标点符号可包括以下项中的至少一种:逗号、分号、句号、问号、感叹号和省略号。需要说明的是,以上特定标点符号不限于上述标点符号,还可以是根据实际需求设置的其他标点符号,本发明在此不做任何限定。
在一个具体的示例中,假设获取的待分割文本为“肉坦你跑到队伍的【前面】,用你的护盾开启防御,奶妈开启大招给大家恢复血量”,通过标点符号识别可以识别到待分割文本“肉坦你跑到队伍的【前面】,用你的护盾开启防御,奶妈开启大招给大家恢复血量”包括的标点符号分别是书名号“【】”、逗号“,”和逗号“,”,其中,在特定标点符号包括逗号、分号、句号、问号、感叹号和省略号中的一种或者多种的组合的情况下,逗号属于特定标点符号,而书名号“【】”不属于特定标点符号,可将书名号“【】”识别为与待分割文本中的词语同级别,然后,按照上述方式,分别将两个逗号在待分割文本中的位置作为分割点,将待分割文本“肉坦你跑到队伍的【前面】,用你的护盾开启防御,奶妈开启大招给大家恢复血量”分割成三个粗分割子句“肉坦你跑到队伍的【前面】”、“用你的护盾开启防御”和“奶妈开启大招给大家恢复血量”。
在一个具体的示例中,假设获取的待分割文本为“跑到那颗红色的树下把那个紫装捡起来”,通过标点符号识别并未发现待分割文本“跑到那颗红色的树下把那个紫装捡起来”中存在标点符号,则可直接将待分割文本“跑到那颗红色的树下把那个紫装捡起来”确定为一个粗分割子句。
作为示例,在获取到至少一个粗分割子句之后,在步骤S102中,首先,通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系,然后,针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系,如果词语之间存在属于动词的并列关系的依存关系,则按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的词语中的首个词语确定为核心词,以所述核心词所在位置为起点,向右搜索与所述核心词具有除动词的并列关系之外的依存关系的词语,在搜索的过程中,将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语与之前的上一个词语之间的边界确定为分割点,最后,基于所述分割点对相应的粗分割子句进行分割,获得至少一个细分割子句。此外,如果词语之间不存在属于动词的并列关系的依存关系,则将该词语之间不存在属于动词的并列关系的依存关系的粗分割子句确定为一个细分割子句。
依存句法是通过描述语言单位内各成分之间的依存关系来解释句子的句法结构,主张句子中的核心动词是支配其他成分的中心成分,而核心动词本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。在语言单位为词语的情况下,词语与词语之间直接发生依存关系,可构成一个依存对,其中一个词语为支配词,另一个词语为从属词。依存关系可用一个有向弧来表示,即,依存弧,依存弧的方向可以由从属词指向支配词,也可以由支配词指向从属词。
本发明中的依存关系可以包括但不限于以下项中的至少一项:主谓关系SBV、动宾关系VOB、并列关系COO、介宾关系POB、状中关系ADV、间宾关系IOB、前置宾语FOB、兼语DBL、定中关系ATT、动补关系CMP、左附加关系LAD、右附加关系RAD、独立结构IS、核心关系HED。
下面,将结合具体的示例来详细介绍如何获得至少一个细分割子句。
图2示出了本申请实施例所提供的粗分割子句的依存关系的示意图。
如图2所示,粗分割子句为“奶妈开启大招给大家恢复血量”,在获取到粗分割子句之后,首先对粗分割子句“奶妈开启大招给大家恢复血量”所包括的词语进行分词和词性标注,通过依存句法获取词性标注后各个词语之间的依存关系,其中,各个词语之间的依存关系可由图2中的依存弧来表示,例如,词语“开启”和词语“恢复”的依存关系为动词的并列关系COO、词语“开启”和词语“奶妈”的依存关系为主谓关系SBV、词语“开启”和词语“大招”的依存关系为动宾关系VOB、词语“给”和词语“大家”的依存关系为介宾关系POB、词语“恢复”和词语“给”的依存关系为状中关系ADV、词语“恢复”和词语“血量”的依存关系为动宾关系VOB。然后,确定词语之间是否存在属于动词的并列关系的依存关系,在本示例中,词语“开启”和词语“恢复”的依存关系属于动词的并列关系COO,因此,可按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的首个词语“开启”确定为核心词,以词语“开启”在粗分割子句“奶妈开启大招给大家恢复血量”所在位置为起点,向右搜索与词语“开启”具有除动词的并列关系之外的依存关系的词语,可以找到核心词“开启”和词语“大招”之间的依存关系为动宾关系VOB,并非动词的并列关系COO,并且以核心词“开启”为起点向右搜索已经搜索不到其他的除动词的并列关系之外的依存关系的词语了,因此,可将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语“给”与之前的上一个词语“大招”之间的边界确定为分割点。因此,粗分割子句为“奶妈开启大招给大家恢复血量”的分割结果为“奶妈开启大招</s>给大家恢复血量”。即,粗分割子句“奶妈开启大招给大家恢复血量”被分割为两个细分割子句“奶妈开启大招”和“给大家恢复血量”。
在本发明的上下文中,为了便于理解,分割点可以用符号“</s>”来表示,此外,应理解,分割点还可以根据实际设置为除</s>之外的其他的形式,本发明在此不做任何限定。
通过上述方式,可以获得每一个粗分割子句被划分后得到的细分割子句,但是基于依存句法的局限性,在粗分割子句的句式较为复杂的情况下,按照依存句法无法准确地对粗分割子句进行分割,例如,如图3所示,通过依存句法获取粗分割子句“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”所包括的各个词语之间的依存关系之后,可以得到词语“朝”和词语“消灭”之间的并列关系并非是动词的并列关系,并且,不存在其他的动词的并列关系,因此,可直接将粗分割子句“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”确定为一个细分割子句,供后续处理。
在步骤S103中,可从步骤S102中获取的至少一个细分割子句中筛选出动词超过预定数目的细分割子句。这里的预定数目可根据预先的设置而被确定,例如,假设预定数目可以是1,也可以是预先设置的任意正整数,本发明在此不做任何限定。
作为示例,如果筛选出动词超过预定数目的细分割子句,则在步骤S104中,使用预先训练好的机器学习模型对筛选出的动词超过预定数目的细分割子句执行人工智能相关的运算,获得筛选出的动词超过预定数目的细分割子句的子句分割结果,将所述至少一个细分割子句中动词未超过预定数目的细分割子句和所述子句分割结果确定为所述待分割文本的文本分割结果。
作为示例,机器学习模型可通过以下方式被训练得到:首先,获取语料训练数据集,然后,基于所述语料训练数据集,利用序列标注算法来训练用于预测细分割子句的子句分割结果的机器学习模型。
作为示例,语料训练数据集可通过以下方式被获取:
首先,获取单句语料,并过滤单句语料。
具体的,可通过过滤单句语料来去除含有非法字符、非中文字符、标点符号以及长度小于预定字数的单句语料,以得到过滤后的单句语料。
然后,将过滤后的单句语料进行随机拼接,获得多个拼接语料。
具体的,单句语料的随机拼接是指单句语料可以按照用户选择的或者预先设置任意规则进行拼接,即在语料的长度和拼接位置不做任何限制,通过这种拼接方式可以利用有限的单句语料来获取到不同的语料组合,从而达到丰富语料训练数据的技术效果。例如,假如获取到三个单句语料,分别用a、b和c表示,如果根据预先设置需要拼接两个单句语料长度的拼接语料,则可产生如下的随机拼接语料中的至少一种:ab、ac、ba、ca、bc和cb。如果根据预先设置需要拼接三个单句语料长度的拼接语料,则可产生如下的随机拼接语料中的至少一种:abc、acb、bac、bca、cab和cba。
最后,在获取到多个拼接语料之后,可确定每个拼接语料的困惑度值,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。
具体的,由于随机拼接获取的拼接语料并非每个都在语义上连贯,而使用语义上不连贯的拼接语料对机器学习模型进行训练会降低机器学习模型的学习难度,使得机器学习模型对细分割子句进行分割的分割性能造成影响,因此,可基于拼接语料困惑度值对拼接语料进行筛选,来获取语义连贯合理的拼接语料,具体的,可通过确定每个拼接语料的困惑度值对拼接语料进行筛选。
例如,可通过下面的公式确定拼接语料S的困惑度值:
PPL(S)=P(ω1ω2…ωN)-1/N 公式1
其中,PPL(S)表示拼接语料S的困惑度,S=ω1ω2…ωN,其中,ω1、ω2、ω3…ωN为组成拼接语料S的词语。
对公式1等号两边取对数,可得到以下等式:
通过公式2可以看出,困惑度值越小,拼接语料S的语义越连贯合理。
具体的,可丢弃困惑度值大于或者等于预定阈值的拼接语料,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。通过上述对机器学习模型的语料训练数据集的构建,降低了对大规模训练数据的依赖,可以适用于训练数据较为贫乏的情况。
在获取到训练好的机器学习模型之后,可将动词超过预定数目的细分割子句作为输入数据输入到训练好的机器学习模型中,来获取到该细分割子句的文本分割结果。该预先训练好的机器学习模型能够借助预训练带来的丰富的语法知识和神经网络强大的表示能力,在不需要大量训练数据的情况下,从深层语义的角度出发,获取到细分割子句的文本分割结果。
下面,将结合一个具体的示例说明获取待分割文本的文本分割结果的具体过程。
在一个具体的示例中,待分割文本为“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”,由于该待分割文本并不存在标点符号,经过步骤S101处理后,可获得粗分割子句“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”,此外,基于上述示例的分析可知,该待分割子句经过细分割子句为“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”的词语与词语之间的依存关系中不存在属于动词的并列关系的依存关系,因此,在步骤S102,可将粗分割子句“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”确定为一个细分割子句,假设预定数目为一时,基于上述示例的分析可知,细分割子句“玄机朝着南边发射镭射炮用你的火力消灭那群灭霸”包括动词“发射”、“用”和“消灭”,因此,该细分割子句中的动词超过预定数目,则可该细分割子句输入到预先训练好的机器学习模型中,机器学习模型通过执行人工智能相关的运算,输出该细分割子句的子句分割结果为“玄机朝着南边发射镭射炮</s>用你的火力消灭那群灭霸”。
此外,在一种可能的实施方式中,如果在步骤S103中未筛选出动词超过预定数目的细分割子句,则将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。
本申请实施例提供的一种文本分割方法,能够使用混合方式对待分割文本进行分割,例如,在使用标点符号分割和依存句法分割后,对于存在超过预定数目个动词的复杂子句时,采用从语义分析的方法对复杂子句进行再分割,对于未超过预定数目个动词的简单子句,无需采用语义分析的方法进行再分割,直接确定文本分割结果。通过这种方式,能够准确快速地将连续文本分割成多个语义完整的子句,从而达到有效提高文本分割结果的准确性,改善人机交互系统的性能和用户体验的技术效果。
下面,将结合具体的场景对本发明的技术效果进行详细说明:
例如,在本申请实施例提供的一种文本分割方法应用于游戏玩家通过语音控制角色完成相应指令的场景中时,通过将接收到的连续文本准确准确快速地分割成多个简单的,语义完整的子句,可以帮助游戏设备理解游戏指令,从而达到提高游戏的可玩性,降低游戏的操作性的技术效果。
此外,在本申请实施例提供的一种文本分割方法应用于连续长文本的处理的任务时,通过将接收的连续文本准确快速地分割成多个简单的,语义完整的子句,还可以为后续的文本动作序列识别、意图序列识别、篇章级语义理解等处理提供有利的支持。
基于同一发明构思,本申请实施例中还提供了与文本分割方法对应的文本分割装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本分割方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4为本申请实施例所提供的一种文本分割装置的结构示意图,如图4中所示,所述文本分割装置400包括:
粗分割子句获取模块401,根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
细分割子句获取模块402,根据依存句法分割每个粗分割子句,获得至少一个细分割子句;
筛选模块403,从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
确定模块404,如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
在一种可能的实施方式中,如果所述筛选模块未筛选出动词超过预定数目的细分割子句,则所述确定模块404具体用于将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述粗分割子句获取模块401具体用于:
确定所述待分割文本中是否存在标点符号;
如果所述待分割文本中存在标点符号,则识别所述待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句;
如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。
在一种可能的实施方式中,所述细分割子句获取模块402具体用于:
通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系;
针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系;
如果词语之间存在属于动词的并列关系的依存关系,则按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的词语中的首个词语确定为核心词;
以所述核心词所在位置为起点,向右搜索与所述核心词具有除动词的并列关系之外的依存关系的词语;
在搜索的过程中,将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语与之前的上一个词语之间的边界确定为分割点;
基于所述分割点对相应的粗分割子句进行分割,获得至少一个细分割子句。
在一种可能的实施方式中,所述细分割子句获取模块402还具体用于:
如果词语之间不存在属于动词的并列关系的依存关系,则将词语之间不存在属于动词的并列关系的依存关系的粗分割子句确定为细分割子句。
在一种可能的实施方式中,所述确定模块404具体用于:
使用预先训练好的机器学习模型对筛选出的动词超过预定数目的细分割子句执行人工智能相关的运算,获得筛选出的动词超过预定数目的细分割子句的子句分割结果;
将所述至少一个细分割子句中动词未超过预定数目的细分割子句和所述子句分割结果确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述机器学习模型通过以下方式训练而被得到:获取语料训练数据集,基于获取的语料训练数据集,利用序列标注算法来训练用于预测细分割子句的子句分割结果的机器学习模型。
在一种可能的实施方式中,所述语料训练数据集通过以下方式被获取:获取单句语料,并过滤所述单句语料,将过滤后的单句语料进行随机拼接,获得多个拼接语料。确定每个拼接语料的困惑度值,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。
在一种可能的实施方式中,所述特定标点符号包括以下项中的至少一种:逗号、分号、句号、问号、感叹号和省略号。
本申请实施例公开了一种电子设备500,如图5所示,包括:处理器501、存储器502和总线503,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线503通信。所述机器可读指令被所述处理器501执行时以下步骤:
根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
根据依存句法分割每个粗分割子句,获得至少一个细分割子句;
从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
在一种可能的实施方式中,如果未筛选出动词超过预定数目的细分割子句,所述处理器501将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述处理器501根据所述待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句,包括:
确定所述待分割文本中是否存在标点符号;
如果所述待分割文本中存在标点符号,则识别所述待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句;
如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。
在一种可能的实施方式中,所述处理器501根据依存句法分割每个粗分割子句,获得至少一个细分割子句,包括:
通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系;
针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系;
如果词语之间存在属于动词的并列关系的依存关系,则按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的词语中的首个词语确定为核心词;
以所述核心词所在位置为起点,向右搜索与所述核心词具有除动词的并列关系之外的依存关系的词语;
在搜索的过程中,将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语与之前的上一个词语之间的边界确定为分割点;
基于所述分割点对相应的粗分割子句进行分割,获得至少一个细分割子句。
在一种可能的实施方式中,所述处理器501根据依存句法分割每个粗分割子句,获得至少一个细分割子句,还包括:
如果词语之间不存在属于动词的并列关系的依存关系,则将词语之间不存在属于动词的并列关系的依存关系的粗分割子句确定为细分割子句。
在一种可能的实施方式中,所述处理器501对所述动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果,包括:
使用预先训练好的机器学习模型对筛选出的动词超过预定数目的细分割子句执行人工智能相关的运算,获得筛选出的动词超过预定数目的细分割子句的子句分割结果;
将所述至少一个细分割子句中动词未超过预定数目的细分割子句和所述子句分割结果确定为所述待分割文本的文本分割结果。
在一种可能的实施方式中,所述机器学习模型通过以下方式训练而被得到:
获取语料训练数据集;
基于获取的语料训练数据集,利用序列标注算法来训练用于预测细分割子句的子句分割结果的机器学习模型,
其中,所述语料训练数据集通过以下方式被获取:
获取单句语料,并过滤所述单句语料;
将过滤后的单句语料进行随机拼接,获得多个拼接语料;
确定每个拼接语料的困惑度值,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。
在一种可能的实施方式中,所述特定标点符号包括以下项中的至少一种:逗号、分号、句号、问号、感叹号和省略号。
本申请实施例所提供的网页解析方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种文本分割方法,其特征在于,所述文本分割方法包括:
根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
根据依存句法分割每个粗分割子句,获得至少一个细分割子句;其中,所述细分割子句是以首个不与核心词具有除动词的并列关系之外的依存关系的词语,与之前的上一个词语之间的边界为分割点分割得到的;所述核心词为粗分割子句中首个与其他词语具有动词的并列关系的词语;
从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
2.根据权利要求1所述的文本分割方法,其特征在于,所述文本分割方法还包括:
如果未筛选出动词超过预定数目的细分割子句,则将所述至少一个细分割子句确定为所述待分割文本的文本分割结果。
3.根据权利要求1所述的文本分割方法,其特征在于,所述根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句,包括:
确定所述待分割文本中是否存在标点符号;
如果所述待分割文本中存在标点符号,则识别所述待分割文本中的标点符号,将按照识别出的属于特定标点符号的标点符号分割而得到的子句确定为粗分割子句;
如果所述待分割文本中不存在标点符号,则将所述待分割文本确定为粗分割子句。
4.根据权利要求1所述的文本分割方法,其特征在于,所述根据依存句法分割每个粗分割子句,获得至少一个细分割子句,包括:
通过依存句法对每个粗分割子句所包括的词语进行分析,获得每个粗分割子句所包括的词语之间的依存关系;
针对每个粗分割子句,确定词语之间是否存在属于动词的并列关系的依存关系;
如果词语之间存在属于动词的并列关系的依存关系,则按照词语从左至右的排列顺序,将依存关系属于动词的并列关系的词语中的首个词语确定为核心词;
以所述核心词所在位置为起点,向右搜索与所述核心词具有除动词的并列关系之外的依存关系的词语;
在搜索的过程中,将首个不与所述核心词具有除动词的并列关系之外的依存关系的词语与之前的上一个词语之间的边界确定为分割点;
基于所述分割点对相应的粗分割子句进行分割,获得至少一个细分割子句。
5.根据权利要求1所述的文本分割方法,其特征在于,所述根据依存句法分割每个粗分割子句,获得至少一个细分割子句,还包括:
如果词语之间不存在属于动词的并列关系的依存关系,则将词语之间不存在属于动词的并列关系的依存关系的粗分割子句确定为细分割子句。
6.根据权利要求1所述的文本分割方法,其特征在于,所述对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果,包括:
使用预先训练好的机器学习模型对筛选出的动词超过预定数目的细分割子句执行人工智能相关的运算,获得筛选出的动词超过预定数目的细分割子句的子句分割结果;
将所述至少一个细分割子句中动词未超过预定数目的细分割子句和所述子句分割结果确定为所述待分割文本的文本分割结果。
7.根据权利要求6所述的文本分割方法,其特征在于,所述机器学习模型通过以下方式训练而被得到:
获取语料训练数据集;
基于获取的语料训练数据集,利用序列标注算法来训练用于预测细分割子句的子句分割结果的机器学习模型,
其中,所述语料训练数据集通过以下方式被获取:
获取单句语料,并过滤所述单句语料;
将过滤后的单句语料进行随机拼接,获得多个拼接语料;
确定每个拼接语料的困惑度值,将困惑度值小于预定阈值的拼接语料组成的集合确定为语料训练数据集。
8.根据权利要求3所述的文本分割方法,其特征在于,所述特定标点符号包括以下项中的至少一种:逗号、分号、句号、问号、感叹号和省略号。
9.一种文本分割装置,其特征在于,所述文本分割装置包括:
粗分割子句获取模块,根据待分割文本中的标点符号分割所述待分割文本,获得至少一个粗分割子句;
细分割子句获取模块,根据依存句法分割每个粗分割子句,获得至少一个细分割子句;其中,所述细分割子句是以首个不与核心词具有除动词的并列关系之外的依存关系的词语,与之前的上一个词语之间的边界为分割点分割得到的;所述核心词为粗分割子句中首个与其他词语具有动词的并列关系的词语;
筛选模块,从所述至少一个细分割子句中筛选出动词超过预定数目的细分割子句;
确定模块,如果筛选出动词超过预定数目的细分割子句,则对筛选出的动词超过预定数目的细分割子句进行语义分析处理,基于语义分析处理的结果确定所述待分割文本的文本分割结果。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至8任一所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一所述方法的步骤。
CN202110145811.0A 2021-02-02 2021-02-02 一种文本分割方法、装置、电子设备及介质 Active CN112784574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110145811.0A CN112784574B (zh) 2021-02-02 2021-02-02 一种文本分割方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110145811.0A CN112784574B (zh) 2021-02-02 2021-02-02 一种文本分割方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN112784574A CN112784574A (zh) 2021-05-11
CN112784574B true CN112784574B (zh) 2023-09-15

Family

ID=75760623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110145811.0A Active CN112784574B (zh) 2021-02-02 2021-02-02 一种文本分割方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN112784574B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386407B (zh) * 2021-12-23 2023-04-11 北京金堤科技有限公司 文本的分词方法及装置
CN115186649B (zh) * 2022-08-30 2023-01-06 北京睿企信息科技有限公司 一种基于关系模型的超长文本的切分方法及系统
TWI832792B (zh) * 2023-08-16 2024-02-11 中華電信股份有限公司 基於上下文情境與使用歷程的意圖評選系統及其方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置
CN105528340A (zh) * 2015-12-02 2016-04-27 北京信息科技大学 一种多动词汉语概念复合块的动词层次分类的方法
CN108460018A (zh) * 2018-02-28 2018-08-28 首都师范大学 一种基于句法谓词聚类的中文篇章主题表现力分析方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN110750980A (zh) * 2019-12-25 2020-02-04 北京海天瑞声科技股份有限公司 短语语料获取方法及短语语料获取装置
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN110874531A (zh) * 2020-01-20 2020-03-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
CN110991180A (zh) * 2019-11-28 2020-04-10 同济人工智能研究院(苏州)有限公司 一种基于关键词和Word2Vec的命令识别方法
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN111339750A (zh) * 2020-02-24 2020-06-26 网经科技(苏州)有限公司 去除停用语并预测句子边界的口语文本处理方法
CN111382571A (zh) * 2019-11-08 2020-07-07 南方科技大学 一种信息抽取方法、系统、服务器和存储介质
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
CN111967242A (zh) * 2020-08-17 2020-11-20 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN112149427A (zh) * 2020-10-12 2020-12-29 腾讯科技(深圳)有限公司 动词短语蕴含图谱的构建方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置
CN105528340A (zh) * 2015-12-02 2016-04-27 北京信息科技大学 一种多动词汉语概念复合块的动词层次分类的方法
CN108460018A (zh) * 2018-02-28 2018-08-28 首都师范大学 一种基于句法谓词聚类的中文篇章主题表现力分析方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN111382571A (zh) * 2019-11-08 2020-07-07 南方科技大学 一种信息抽取方法、系统、服务器和存储介质
CN110991180A (zh) * 2019-11-28 2020-04-10 同济人工智能研究院(苏州)有限公司 一种基于关键词和Word2Vec的命令识别方法
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN110750980A (zh) * 2019-12-25 2020-02-04 北京海天瑞声科技股份有限公司 短语语料获取方法及短语语料获取装置
CN110874531A (zh) * 2020-01-20 2020-03-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
CN111339750A (zh) * 2020-02-24 2020-06-26 网经科技(苏州)有限公司 去除停用语并预测句子边界的口语文本处理方法
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
CN111967242A (zh) * 2020-08-17 2020-11-20 支付宝(杭州)信息技术有限公司 一种文本信息的抽取方法、装置及设备
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
CN112149427A (zh) * 2020-10-12 2020-12-29 腾讯科技(深圳)有限公司 动词短语蕴含图谱的构建方法及相关设备

Also Published As

Publication number Publication date
CN112784574A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112784574B (zh) 一种文本分割方法、装置、电子设备及介质
CN113553848B (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN114036300A (zh) 一种语言模型的训练方法、装置、电子设备及存储介质
CN113660432B (zh) 翻译字幕制作方法、装置、电子设备与存储介质
CN113032226A (zh) 异常日志的检测方法、装置、电子设备及存储介质
CN111914554B (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
Attia et al. Handling unknown words in statistical latent-variable parsing models for Arabic, English and French
EP2653981A1 (en) Natural language processing device, method, and program
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
Saharia et al. Analysis and evaluation of stemming algorithms: a case study with Assamese
CN110245361A (zh) 短语对提取方法、装置、电子设备及可读存储介质
CN110413737B (zh) 一种同义词的确定方法、装置、服务器及可读存储介质
CN110674628B (zh) 文件模板生成方法及系统
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
Galinsky et al. Improving neural network models for natural language processing in russian with synonyms
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
Bladier et al. German and French neural supertagging experiments for LTAG parsing
CN115238711A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114970767A (zh) 一种文本相似度模型的训练方法、装置、设备及介质
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN113988047A (zh) 一种语料筛选方法和装置
CN114265922A (zh) 基于跨语言的自动问答、模型训练方法及设备
Tran et al. Improve effectiveness resolving some inter-sentential anaphoric pronouns indicating human objects in Vietnamese paragraphs using finding heuristics with priority
CN109145312A (zh) 一种基于二级缓存的机器翻译方法、装置、介质和电子设备
CN115510871A (zh) 一种文本识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant