CN113139368A - 一种文本编辑方法及系统 - Google Patents

一种文本编辑方法及系统 Download PDF

Info

Publication number
CN113139368A
CN113139368A CN202110540630.8A CN202110540630A CN113139368A CN 113139368 A CN113139368 A CN 113139368A CN 202110540630 A CN202110540630 A CN 202110540630A CN 113139368 A CN113139368 A CN 113139368A
Authority
CN
China
Prior art keywords
intention
model
text
intention recognition
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110540630.8A
Other languages
English (en)
Other versions
CN113139368B (zh
Inventor
喻纯
史元春
杨欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110540630.8A priority Critical patent/CN113139368B/zh
Publication of CN113139368A publication Critical patent/CN113139368A/zh
Application granted granted Critical
Publication of CN113139368B publication Critical patent/CN113139368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本编辑方法及系统,该方法为:将用户用于编辑目标文本的语音内容转换为待处理文本,并对待处理文本进行分词处理得到相应的分词结果;将分词结果作为预设的意图识别模型的输入进行意图识别,得到待处理文本对应的意图识别结果;基于预设的序列标注模型对分词结果进行处理,得到与意图识别结果对应的关键信息;利用意图识别结果和与其对应的关键信息,对目标文本进行文本编辑处理。结合意图识别模型和序列标注模型,确定得到用户的语音内容中的意图识别结果和与其对应的关键信息,并基于意图识别结果和关键信息对目标文本进行文本编辑处理,提高对自然语言的处理准确率,以实现将语音交互应用于文本编辑。

Description

一种文本编辑方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本编辑方法及系统。
背景技术
随着科学技术的发展,智能手机和平板电脑等智能终端逐渐被广泛应用。由于语言的信息传递效率较高,语音交互在诸如文本编辑等复杂任务的处理上有较大的优势。
但是,目前由于对自然语言进行处理的方式的准确性较低,用户与智能终端的交互方式主要以手势交互为主,而语音交互仅限于智能终端的语音助手这一场景,因此如何将语音交互应用于文本编辑任务是目前亟需待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种文本编辑方法及系统,以实现将语音交互应用于文本编辑任务这一目的。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种文本编辑方法,所述方法包括:
将用户用于编辑目标文本的语音内容转换为待处理文本,并对所述待处理文本进行分词处理得到相应的分词结果;
将所述分词结果作为预设的意图识别模型的输入进行意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果为插入意图、删除意图、替换意图或文本输入意图,所述意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条所述第一样本数据为经过分词处理和意图标注后的样本数据;
基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,所述序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条所述第二样本数据为经过分词处理和标签标注处理后的样本数据;
利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理。
优选的,所述基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,包括:
将所述分词结果作为预设的序列标注模型的输入进行标签预测,得到所述分词结果中每个文本单元的标签,所述文本单元至少包括一个连续的汉字,所述文本单元的标签用于指示所述文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象;
确定与所述意图识别结果对应的所述标签所对应的所述文本单元为关键信息。
优选的,所述第一指定模型为最大熵模型,基于多条第一样本数据训练所述第一指定模型得到所述意图识别模型的过程,包括:
对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;
确定所述最大熵模型的目标函数;
利用所述多条第一样本数据和所述最大熵模型的目标函数,训练所述最大熵模型直至所述最大熵模型收敛,得到意图识别模型。
优选的,所述第二指定模型为条件随机场模型,基于多条第二样本数据训练所述第二指定模型得到所述序列标注模型的过程,包括:
对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;
利用所述多条第二样本数据,训练所述条件随机场模型直至所述条件随机场模型收敛,得到序列标注模型。
优选的,所述利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理,包括:
若所述意图识别结果为插入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息插入处理;
若所述意图识别结果为删除意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息删除处理;
若所述意图识别结果为替换意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息替换处理;
若所述意图识别结果为文本输入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息输入处理。
本发明实施例第二方面公开一种文本编辑系统,所述系统包括:
第一处理单元,用于将用户用于编辑目标文本的语音内容转换为待处理文本,并对所述待处理文本进行分词处理得到相应的分词结果;
意图识别单元,用于将所述分词结果作为预设的意图识别模型的输入进行意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果为插入意图、删除意图、替换意图或文本输入意图,所述意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条所述第一样本数据为经过分词处理和意图标注后的样本数据;
提取单元,用于基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,所述序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条所述第二样本数据为经过分词处理和标签标注处理后的样本数据;
第二处理单元,用于利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理。
优选的,用于获取与所述意图识别结果对应的关键信息的所述提取单元,具体用于:将所述分词结果作为预设的序列标注模型的输入进行标签预测,得到所述分词结果中每个文本单元的标签,并确定与所述意图识别结果对应的所述标签所对应的所述文本单元为关键信息,所述文本单元至少包括一个连续的汉字,所述文本单元的标签用于指示所述文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象。
优选的,所述第一指定模型为最大熵模型,用于训练所述第一指定模型得到所述意图识别模型的所述意图识别单元,具体用于:对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;确定所述最大熵模型的目标函数;利用所述多条第一样本数据和所述最大熵模型的目标函数,训练所述最大熵模型直至所述最大熵模型收敛,得到意图识别模型。
优选的,所述第二指定模型为条件随机场模型,用于训练所述第二指定模型得到所述序列标注模型的所述提取单元,具体用于:对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;利用所述多条第二样本数据,训练所述条件随机场模型直至所述条件随机场模型收敛,得到序列标注模型。
优选的,所述第二处理单元具体用于:若所述意图识别结果为插入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息插入处理;
若所述意图识别结果为删除意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息删除处理;
若所述意图识别结果为替换意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息替换处理;
若所述意图识别结果为文本输入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息输入处理。
基于上述本发明实施例提供的一种文本编辑方法及系统,该方法为:将用户用于编辑目标文本的语音内容转换为待处理文本,并对待处理文本进行分词处理得到相应的分词结果;将分词结果作为预设的意图识别模型的输入进行意图识别,得到待处理文本对应的意图识别结果;基于预设的序列标注模型对分词结果进行处理,得到与意图识别结果对应的关键信息;利用意图识别结果和与其对应的关键信息,对目标文本进行文本编辑处理。本方案中,将用户的语音内容转换为待处理文本并进行分词得到分词结果。利用意图识别模型处理分词结果得到意图识别结果,再利用序列标注模型对分词结果进行处理得到与意图识别结果对应的关键信息,根据意图识别结果和关键信息对目标文本进行文本编辑处理,提高对自然语言的处理准确率,以实现将语音交互应用于文本编辑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种文本编辑方法的流程图;
图2为本发明实施例提供的条件随机场模型处理数据的示意图;
图3为本发明实施例提供的一种文本编辑系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前由于对自然语言进行处理的方式的准确性较低,用户与智能终端的交互方式还是以手势交互为主,对于语音交互的应用也仅限于语音助手这一场景,因此如何将语音交互应用于文本编辑任务是目前亟需待解决的问题。
故,本发明实施例提供一种文本编辑方法及系统,将用户的语音内容转换为待处理文本并进行分词得到分词结果。利用意图识别模型处理分词结果得到意图识别结果,再利用序列标注模型对分词结果进行处理得到与意图识别结果对应的关键信息,根据意图识别结果和关键信息对目标文本进行文本编辑处理,以提高对自然语言的处理准确率,进而实现将语音交互应用于文本编辑。
需要说明的是,本发明实施例中所涉及的意图识别模型和序列标注模型为预先训练得到的模型,将意图识别模型和序列标注模型对应的模型文件存储在智能终端的客户端本地,在实际应用中,直接从客户端本地调用意图识别模型和序列标注模型进行相关处理,进一步提升处理效率,详细内容见以下实施例。
参见图1,示出了本发明实施例提供的一种文本编辑方法的流程图,该文本编辑方法包括:
步骤S101:将用户用于编辑目标文本的语音内容转换为待处理文本,并对待处理文本进行分词处理得到相应的分词结果。
在具体实现步骤S101的过程中,将用户用于编辑目标文本的语音内容转换为待处理文本,并利用指定方式对该待处理文本进行分词处理得到相应的分词结果,该分词结果中包含至少一个文本单元,每个文本单元至少包括一个连续的汉字,即文本单元可以是词或字。
在一些具体实施例中,利用开源语言处理包HanLP,对该待处理文本进行分词处理得到相应的分词结果,同理,也可采用其它分词方式对该待处理文本进行分词处理,在此不做具体限定。
步骤S102:将分词结果作为预设的意图识别模型的输入进行意图识别,得到待处理文本对应的意图识别结果。
需要说明的是,意图识别结果为插入意图(其中划分为前向插入意图和后向插入意图)、删除意图、替换意图或文本输入意图,意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条第一样本数据为经过分词处理和意图标注后的样本数据。
可以理解的是,对某一文本进行意图识别可以认为是一个分类问题,而最大熵模型可用于处理分类问题,故第一指定模型可以是最大熵模型,同理,也可以是其它具有分类功能的模型,在此不做具体限定。
具体而言,前向插入意图是指在目标文本中的某个文本单元前插入相应的文本单元,后向插入意图是指在目标文本中的某个文本单元后插入相应的文本单元,删除意图是指将目标文本中的某个文本单元删除,替换意图是指将目标文本中的某个文本单元替换为其它文本单元,文本输入意图是指将某个文本单元输入目标文本中。
需要说明的是,最大熵模型是一个分类模型,最大熵模型在训练过程中的优化目标是使熵值-∑xp(x)logp(x)最大,用于训练最大熵模型的每条训练数据的格式为[特征向量,类别],通过所给定的训练数据训练最大熵模型完成后,再向训练完成的最大熵模型输入一个待分类特征向量,该训练完成的最大熵模型可利用训练得到的参数进行计算,得到待分类特征向量的类别。而在意图识别应用中,每一句话经过文本表示和特征提取后可以通过一个特征向量来表示,训练完成的最大熵模型的目的就是预测某句话的意图所属的类别。
在一些具体实施例中,第一指定模型为最大熵模型,基于多条第一样本数据训练第一指定模型得到意图识别模型的过程为:对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据,确定最大熵模型的目标函数,利用该多条第一样本数据和最大熵模型的目标函数,训练最大熵模型直至最大熵模型收敛,得到意图识别模型。训练得到意图识别模型的详细过程参见下述过程A1至过程A4所示出的内容。
A1、对用于训练最大熵模型的样本数据进行分词处理(可采用HanLP进行分词)和意图标注,并将经过分词处理和意图标注的样本数据划分为训练样本(例如占样本数据总数的80%)和测试样本(例如占样本数据总数的20%),该训练样本中的样本数据即为多条第一样本数据。
可以理解的是,对样本数据进行意图标注是指:为该样本数据添加标签,标签的具体内容为该样本数据的意图。
A2、对最大熵模型进行初始化,最大熵模型中的标签可分为5种分类结果,分别为前向插入意图、后向插入意图、删除意图、替换意图和文本输入意图。其中,每条经过分词处理和意图标注的样本数据对应一个标签和分词的组合。
A3、可以理解的是,最大熵模型在数学上形式化为有约束条件的最优化问题,故最大熵模型的目标函数如公式(1)示出的内容。
Figure BDA0003071452470000071
在公式(1)中,λi为特征函数fi(x,y)的系数(即训练模型的输出参数),pλ(y|x)表示模型,
Figure BDA0003071452470000072
为经验分布,
Figure BDA0003071452470000073
n为特征函数的个数,
Figure BDA0003071452470000081
为特征函数fi(x,y)关于经验分布
Figure BDA0003071452470000082
的期望值,E(fi)为特征函数fi(x,y)关于模型pλ(y|x)和经验分布
Figure BDA0003071452470000083
的期望值。
基于上述公式(1)中的目标函数,采用通用迭代尺度法进行优化,训练最大熵模型直至收敛,具体优化过程详见以下过程A301至A304的内容。
A301、初始化参数,即令λ=0。
A302、计算
Figure BDA0003071452470000084
i=1,2,…,n。
Figure BDA0003071452470000085
为特征函数fi(x,y)关于经验分布
Figure BDA0003071452470000086
的期望值。
A303、计算E(fi),i=1,2,…,n。利用公式(2)执行一次迭代并对参数λi进行一次刷新。E(fi)为特征函数fi(x,y)关于模型pλ(y|x)和经验分布
Figure BDA0003071452470000087
的期望值。
Figure BDA0003071452470000088
在公式(2)中,i=1,2,…,n;η为学习率,η指示每一步迭代时参数更新的速度。
A304、判断是否满足收敛条件,若满足则得到意图识别模型并执行过程A4,若不满足则返回执行过程A302。收敛条件为:对于所有i,均满足更新后的λi与更新前的λi之间的差值小于阈值(例如0.001)。
需要说明的是,当满足收敛条件时,在意图识别模型的模型文件中所保存的数据为:类别名称、特征表、包含训练样本的训练集的大小、收敛条件下的λi
Figure BDA0003071452470000089
和E(fi)。
A4、利用意图识别模型,对测试样本进行测试,确定该意图识别模型的意图识别准确率。
在具体实现步骤S102的过程中,将待处理文本的分词结果输入意图识别模型进行意图识别,获取该意图识别模型输出的多类意图(插入意图、删除意图、替换意图和文本输入意图)及每类意图对应的概率值所组成的列表,将每类意图对应的概率值从高至低排序,确定概率值最大的意图为待处理文本对应的意图识别结果。
步骤S103:基于预设的序列标注模型对分词结果进行处理,得到与意图识别结果对应的关键信息。
需要说明的是,序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条第二样本数据为经过分词处理和标签标注处理后的样本数据。
可以理解的是,对待处理文本进行信息提取的目标是:找到待处理文本中与意图识别结果对应的关键信息。具体而言,当待处理文本的意图识别结果为删除意图时,所要提取的关键信息为需要删除的文本单元;当待处理文本的意图识别结果为替换意图,所要提取的关键信息为被替换的文本单元和替换的文本单元;当待处理文本的意图识别结果为插入意图时,所要提取的关键信息为用于定位的文本单元和要插入的文本单元;当待处理文本的意图识别结果为文本输入意图时,所要提取的关键信息为需要输入的文本单元。
由于用户在自然语言下表达修改操作的形式多样,因此需要在各式各样的表达形式下从待处理文本中提取上述提及的与意图识别结果对应的关键信息。因此,将待输入对象、待删除对象、被替换对象、替换对象(用于替换掉该被替换对象)、定位对象和待插入对象看作标签,则信息提取操作实际上为一个序列标注任务,即对待处理文本的分词结果中的各个文本单元标注相应的标签,进而找到标签符合意图识别结果的文本单元作为关键信息,而条件随机场模型可用于序列标注,故第二指定模型可以是条件随机场模型,同理,第二指定模型也可以是其它具有序列标注功能的模型,在此不做限定。
需要说明的是,条件随机场模型的输入为观测序列(即分词后的文本),其输出为标注序列(即经过处理后的文本中各个文本单元的标签)。为更好解释说明条件随机场模型的输入和输出,通过图2示出的条件随机场模型处理数据的示意图进行举例说明。
在图2中,将意图为替换意图的“把星期六修改为星期天”这一文本的分词结果(即观测序列)输入条件随机场模型中,该条件随机场模型输出该分词结果中各个文本单元的标签(标注序列),该标注序列的具体内容为:“星期六”(即被替换对象)的标签为“SOURCE”,“星期天”(即替换对象)的标签为“TARGET”,其余文本单元的标签为“O”,“SOURCE”标签和“TARGET”标签所对应的文本单元即为需要提取的关键信息。也就是说,将待编辑的目标文本中的:“星期六”修改为“星期天”。
需要说明的是,图2中的预测序列即为上述提及的标注序列。
结合图2示出的内容可知,不同意图识别结果所需要提取的关键信息对应的标签不同,当意图识别结果为删除意图时,关键信息对应的标签为“TARGET”;当意图识别结果为替换意图时,关键信息对应的标签为“SOURCE”和“TARGET”;当意图识别结果为插入意图时,关键信息对应的标签为“LOCATION”(即用于定位的文本单元)和“INSERTION”(即待插入的文本单元)。
可以理解的是,条件随机场模型通过样本数据中观测序列和标注序列的对应关系与次序关系建立序列标注模型,其中,对应关系为当前标签与当前观测值的关系,次序关系为当前标签与上一个标签的关系。
故在一些具体实施例中,第二指定模型为条件随机场模型,基于多条第二样本数据训练第二指定模型得到序列标注模型的具体方式为:对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;利用多条第二样本数据,训练条件随机场模型直至条件随机场模型收敛,得到序列标注模型。训练得到序列标注模型的详细过程参见下述过程B1至B2示出的内容。
B1、对用于训练条件随机场模型的样本数据进行分词处理(可采用HanLP进行分词)和标签标注,并将经过分词处理和意图标注的样本数据划分为训练样本(例如占样本数据总数的80%)和测试样本(例如占样本数据总数的20%),该训练样本中的样本数据即为多条第二样本数据。
可以理解的是,对样本数据进行标签标注是指:为该样本数据的分词结果中的关键信息添加标签,每个关键信息的标签的具体内容为:待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象。
B2、利用训练样本对应的输入序列
Figure BDA0003071452470000101
和标注序列
Figure BDA0003071452470000102
结合公式(3)示出的对数似然函数,使该对数似然函数最大化,从而得到一组模型参数w。
Figure BDA0003071452470000103
需要说明的是,上述提及的输入序列为未经过标签标注的样本数据,标注序列为经过标签标注的样本数据。在公式(3)中,
Figure BDA0003071452470000104
为输入序列和标注序列的经验分布,Pw(y|x)为给定系数w下y关于x的条件分布,
对于过程B2,采用迭代尺度法(可参见上述过程A2至A4的内容),按照参数初始化、计算、迭代和收敛性检查的过程,训练条件随机场模型直至该条件随机场模型收敛,得到序列标注模型及其对应的模型参数w。
在实际应用之前,可利用测试样本对序列标注模型进行测试,并通过精确率(precision)、召回率(recall)和F1值来评价测试结果。
在具体实现步骤S103的过程中,将待分析文本的分词结果作为预设的序列标注模型的输入进行标签预测,得到分词结果中每个文本单元的标签,该文本单元至少包括一个连续的汉字,该文本单元的标签用于指示该文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象;确定与待分析文本的意图识别结果对应的标签所对应的文本单元为关键信息。
例如:假设分析文本的意图识别结果为删除意图,则确定与删除标签对应的文本单元为关键信息。
可以理解的是,序列标注模型在预测文本单元的标签时,将预测得到的概率最大的标签结果作为该文本单元的标签。
在一些具体实施例中,序列标注模型在预测待分析文本的分词结果中各个文本单元的标签时,是给定条件随机场模型P(Y|X)和观测序列x(即待分析文本的分词结果),求条件概率最大的标注序列y*(即分词结果中每个文本单元的标签),该序列标注模型的预测过程可以视为求概率最大的最优路径问题,该最优路径问题如公式(4)。
Figure BDA0003071452470000111
在公式(4)中,x为输入序列,y为标注序列,w为特征函数系数,Fi(yi-1,yi,x)为特征函数。
需要说明的是,特征函数的自变量包含位置索引i、i处观测值、i-1处标签和i处标签,特征函数的取值为0或1;具体来说,特征函数包含两类,其中一类为状态特征函数,另一类为转移特征函数;当满足特征条件时,特征函数的取值为1,当不满足特征条件时,特征函数的取值为0;特征条件具体是指:给定位置索引i、i处观测值和i-1处标签时,i处标签是否与特征函数中给定的结果相同;判断是否满足特征条件可根据样本数据对照得到,而条件随机场模型完全由特征函数的特征函数系数w(也称为权重系数)确定。
对于上述公式(4)的最优路径问题,将模型特征函数F(y,x)、特征函数系数w和观测序列x作为输入,通过维特比算法进行计算得到并输出最优路径标注序列y*,具体如何计算得到标注序列y*的过程,详见以下过程C1至过程C4示出的内容。
C1、通过公式(5)进行初始化。
δ1(j)=w·F1(y0=start,y1=j,x),j=1,2,...,m(5)
在公式(5)中,δ1(j)表示标注序列中第1个位置的标签为j的最大概率值。
C2、在公式(5)的基础上,对i=2,3,…,n,通过公式(6)和公式(7)进行递推。
Figure BDA0003071452470000121
Figure BDA0003071452470000122
在公式(6)和公式(7)中,δi(l)表示标注序列中第i个位置的标签为l的最大概率值,Ψi(l)表示最大概率下标注序列第i个位置的标签为1时的上一个标签。
C3、通过公式(8)和公式(9)终止上述递推过程。
maxy(w·F(y,x))=max1≤j≤mδn(j) (8)
Figure BDA0003071452470000123
在公式(8)和公式(9)中,δn(j)表示标注序列中第n个位置的标签为j的最大概率值,
Figure BDA0003071452470000124
表示标注序列中第n个位置的概率值最大的标签类别。
C4、通过公式(10)返回标注序列y*
Figure BDA0003071452470000125
在公式(10)中,
Figure BDA0003071452470000126
表示最优路径下序列第i个位置的标签。
步骤S104:利用意图识别结果和与其对应的关键信息,对目标文本进行文本编辑处理。
在具体实现步骤S104的过程中,当确定待处理文本的意图识别结果和与意图识别结果对应的关键信息后,按照该意图识别结果和与其对应的关键信息,对目标文本进行文本编辑。
在一些具体实施例中,若该意图识别结果为插入意图,基于与意图识别结果对应的关键信息,对目标文本进行信息插入处理;可以理解的是,当意图识别结果为插入意图时,所提取的关键信息为定位对象和待插入对象,此时在目标文本的定位对象处插入该待插入对象。例如:当意图识别结果为前向插入意图时,在目标文本的定位对象前插入该待插入对象。
若意图识别结果为删除意图,基于与意图识别结果对应的关键信息,对目标文本进行信息删除处理;可以理解的是,当意图识别结果为删除意图时,所提取的关键信息为删除对象,此时将目标文本中的该删除对象删除掉。
若意图识别结果为替换意图,基于与意图识别结果对应的关键信息,对目标文本进行信息替换处理;可以理解的是,当意图识别结果为替换意图时,所提取的关键信息为替换对象和被替换对象,此时将目标文本中的该被替换对象修改为该替换对象。
若意图识别结果为文本输入意图,基于与意图识别结果对应的关键信息,对目标文本进行信息输入处理;可以理解的是,当意图识别结果为文本输入意图时,所提取的关键信息为待输入对象,此时将该待输入对象输入目标文本中。
在本发明实施例中,将用户的语音内容转换为待处理文本并进行分词得到分词结果。利用意图识别模型处理分词结果得到意图识别结果,再利用序列标注模型对分词结果进行处理得到与意图识别结果对应的关键信息,根据意图识别结果和关键信息对目标文本进行文本编辑处理,提高对自然语言的处理准确率,以实现将语音交互应用于文本编辑。
与上述本发明实施例提供的一种文本编辑方法相对应,参见图3,本发明实施例还提供了一种文本编辑系统的结构框图,该文本编辑系统包括:第一处理单元301、意图识别单元302、提取单元303和第二处理单元304;
第一处理单元301,用于将用户用于编辑目标文本的语音内容转换为待处理文本,并对待处理文本进行分词处理得到相应的分词结果。
意图识别单元302,用于将分词结果作为预设的意图识别模型的输入进行意图识别,得到待处理文本对应的意图识别结果,意图识别结果为插入意图、删除意图、替换意图或文本输入意图,意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条第一样本数据为经过分词处理和意图标注后的样本数据。
在具体实现中,第一指定模型为最大熵模型,用于训练第一指定模型得到意图识别模型的意图识别单元302,具体用于:对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;确定最大熵模型的目标函数;利用多条第一样本数据和最大熵模型的目标函数,训练最大熵模型直至最大熵模型收敛,得到意图识别模型。
提取单元303,用于基于预设的序列标注模型对分词结果进行处理,得到与意图识别结果对应的关键信息,序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条第二样本数据为经过分词处理和标签标注处理后的样本数据。
在具体实现中,用于获取与意图识别结果对应的关键信息的提取单元303,具体用于:将分词结果作为预设的序列标注模型的输入进行标签预测,得到分词结果中每个文本单元的标签,并确定与意图识别结果对应的标签所对应的文本单元为关键信息,文本单元至少包括一个连续的汉字,文本单元的标签用于指示文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象。
在具体实现中,第二指定模型为条件随机场模型,用于训练第二指定模型得到序列标注模型的提取单元303,具体用于:对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;利用多条第二样本数据,训练条件随机场模型直至条件随机场模型收敛,得到序列标注模型。
第二处理单元304,用于利用意图识别结果和与其对应的关键信息,对目标文本进行文本编辑处理。
在具体实现中,第二处理单元304具体用于:若意图识别结果为插入意图,基于与意图识别结果对应的关键信息,对目标文本进行信息插入处理;若意图识别结果为删除意图,基于与意图识别结果对应的关键信息,对目标文本进行信息删除处理;若意图识别结果为替换意图,基于与意图识别结果对应的关键信息,对目标文本进行信息替换处理;若意图识别结果为文本输入意图,基于与意图识别结果对应的关键信息,对目标文本进行信息输入处理。
在本发明实施例中,将用户的语音内容转换为待处理文本并进行分词得到分词结果。利用意图识别模型处理分词结果得到意图识别结果,再利用序列标注模型对分词结果进行处理得到与意图识别结果对应的关键信息,根据意图识别结果和关键信息对目标文本进行文本编辑处理,提高对自然语言的处理准确率,以实现将语音交互应用于文本编辑。
综上所述,本发明实施例提供一种文本编辑方法及系统,结合意图识别模型和序列标注模型,确定得到用户的语音内容中的意图识别结果和与其对应的关键信息,并基于意图识别结果和关键信息对目标文本进行文本编辑处理,提高对自然语言的处理准确率,以实现将语音交互应用于文本编辑。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本编辑方法,其特征在于,所述方法包括:
将用户用于编辑目标文本的语音内容转换为待处理文本,并对所述待处理文本进行分词处理得到相应的分词结果;
将所述分词结果作为预设的意图识别模型的输入进行意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果为插入意图、删除意图、替换意图或文本输入意图,所述意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条所述第一样本数据为经过分词处理和意图标注后的样本数据;
基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,所述序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条所述第二样本数据为经过分词处理和标签标注处理后的样本数据;
利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,包括:
将所述分词结果作为预设的序列标注模型的输入进行标签预测,得到所述分词结果中每个文本单元的标签,所述文本单元至少包括一个连续的汉字,所述文本单元的标签用于指示所述文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象;
确定与所述意图识别结果对应的所述标签所对应的所述文本单元为关键信息。
3.根据权利要求1所述的方法,其特征在于,所述第一指定模型为最大熵模型,基于多条第一样本数据训练所述第一指定模型得到所述意图识别模型的过程,包括:
对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;
确定所述最大熵模型的目标函数;
利用所述多条第一样本数据和所述最大熵模型的目标函数,训练所述最大熵模型直至所述最大熵模型收敛,得到意图识别模型。
4.根据权利要求1所述的方法,其特征在于,所述第二指定模型为条件随机场模型,基于多条第二样本数据训练所述第二指定模型得到所述序列标注模型的过程,包括:
对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;
利用所述多条第二样本数据,训练所述条件随机场模型直至所述条件随机场模型收敛,得到序列标注模型。
5.根据权利要求1所述的方法,其特征在于,所述利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理,包括:
若所述意图识别结果为插入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息插入处理;
若所述意图识别结果为删除意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息删除处理;
若所述意图识别结果为替换意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息替换处理;
若所述意图识别结果为文本输入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息输入处理。
6.一种文本编辑系统,其特征在于,所述系统包括:
第一处理单元,用于将用户用于编辑目标文本的语音内容转换为待处理文本,并对所述待处理文本进行分词处理得到相应的分词结果;
意图识别单元,用于将所述分词结果作为预设的意图识别模型的输入进行意图识别,得到所述待处理文本对应的意图识别结果,所述意图识别结果为插入意图、删除意图、替换意图或文本输入意图,所述意图识别模型由基于多条第一样本数据训练第一指定模型得到,每条所述第一样本数据为经过分词处理和意图标注后的样本数据;
提取单元,用于基于预设的序列标注模型对所述分词结果进行处理,得到与所述意图识别结果对应的关键信息,所述序列标注模型由基于多条第二样本数据训练第二指定模型得到,每条所述第二样本数据为经过分词处理和标签标注处理后的样本数据;
第二处理单元,用于利用所述意图识别结果和与其对应的所述关键信息,对所述目标文本进行文本编辑处理。
7.根据权利要求6所述的系统,其特征在于,用于获取与所述意图识别结果对应的关键信息的所述提取单元,具体用于:将所述分词结果作为预设的序列标注模型的输入进行标签预测,得到所述分词结果中每个文本单元的标签,并确定与所述意图识别结果对应的所述标签所对应的所述文本单元为关键信息,所述文本单元至少包括一个连续的汉字,所述文本单元的标签用于指示所述文本单元为待输入对象、待删除对象、被替换对象、替换对象、定位对象或待插入对象。
8.根据权利要求6所述的系统,其特征在于,所述第一指定模型为最大熵模型,用于训练所述第一指定模型得到所述意图识别模型的所述意图识别单元,具体用于:对用于训练最大熵模型的样本数据进行分词处理和意图标注,得到多条第一样本数据;确定所述最大熵模型的目标函数;利用所述多条第一样本数据和所述最大熵模型的目标函数,训练所述最大熵模型直至所述最大熵模型收敛,得到意图识别模型。
9.根据权利要求6所述的系统,其特征在于,所述第二指定模型为条件随机场模型,用于训练所述第二指定模型得到所述序列标注模型的所述提取单元,具体用于:对用于训练条件随机场模型的样本数据进行分词处理和标签标注,得到多条第二样本数据;利用所述多条第二样本数据,训练所述条件随机场模型直至所述条件随机场模型收敛,得到序列标注模型。
10.根据权利要求6所述的系统,其特征在于,所述第二处理单元具体用于:若所述意图识别结果为插入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息插入处理;
若所述意图识别结果为删除意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息删除处理;
若所述意图识别结果为替换意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息替换处理;
若所述意图识别结果为文本输入意图,基于与所述意图识别结果对应的所述关键信息,对所述目标文本进行信息输入处理。
CN202110540630.8A 2021-05-18 2021-05-18 一种文本编辑方法及系统 Active CN113139368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110540630.8A CN113139368B (zh) 2021-05-18 2021-05-18 一种文本编辑方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110540630.8A CN113139368B (zh) 2021-05-18 2021-05-18 一种文本编辑方法及系统

Publications (2)

Publication Number Publication Date
CN113139368A true CN113139368A (zh) 2021-07-20
CN113139368B CN113139368B (zh) 2023-04-11

Family

ID=76817577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110540630.8A Active CN113139368B (zh) 2021-05-18 2021-05-18 一种文本编辑方法及系统

Country Status (1)

Country Link
CN (1) CN113139368B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095282A (zh) * 2022-01-21 2022-02-25 杭银消费金融股份有限公司 一种基于短文本特征提取的风控处理方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033004A1 (en) * 2005-07-25 2007-02-08 At And T Corp. Methods and systems for natural language understanding using human knowledge and collected data
CN109817210A (zh) * 2019-02-12 2019-05-28 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
CN110321534A (zh) * 2018-03-28 2019-10-11 科大讯飞股份有限公司 一种文本编辑方法、装置、设备及可读存储介质
CN111737989A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033004A1 (en) * 2005-07-25 2007-02-08 At And T Corp. Methods and systems for natural language understanding using human knowledge and collected data
CN110321534A (zh) * 2018-03-28 2019-10-11 科大讯飞股份有限公司 一种文本编辑方法、装置、设备及可读存储介质
CN109817210A (zh) * 2019-02-12 2019-05-28 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
CN111737989A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095282A (zh) * 2022-01-21 2022-02-25 杭银消费金融股份有限公司 一种基于短文本特征提取的风控处理方法及设备
CN114095282B (zh) * 2022-01-21 2022-04-15 杭银消费金融股份有限公司 一种基于短文本特征提取的风控处理方法及设备

Also Published As

Publication number Publication date
CN113139368B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN109271521B (zh) 一种文本分类方法及装置
CN107168952B (zh) 基于人工智能的信息生成方法和装置
CN111198948B (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN110348214B (zh) 对恶意代码检测的方法及系统
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN108205524B (zh) 文本数据处理方法和装置
CN113010683A (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN111859967A (zh) 实体识别方法、装置,电子设备
CN112732882A (zh) 用户意图识别方法、装置、设备及计算机可读存储介质
CN113449489A (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN113435192A (zh) 一种基于改变神经网络通道基数的中文文本情感分析方法
CN113139368B (zh) 一种文本编辑方法及系统
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN111753546B (zh) 文书信息抽取方法、装置、计算机设备及存储介质
CN116756605A (zh) 一种基于ernie_cn-gru语步自动识别方法、系统、设备及介质
CN113342974B (zh) 一种网络安全实体重叠关系的识别方法、装置及设备
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN112989003B (zh) 意图识别方法、装置、处理设备及介质
CN114817537A (zh) 一种基于政策文件数据的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant