CN111737991B - 文本断句位置的识别方法及系统、电子设备及存储介质 - Google Patents

文本断句位置的识别方法及系统、电子设备及存储介质 Download PDF

Info

Publication number
CN111737991B
CN111737991B CN202010628393.6A CN202010628393A CN111737991B CN 111737991 B CN111737991 B CN 111737991B CN 202010628393 A CN202010628393 A CN 202010628393A CN 111737991 B CN111737991 B CN 111737991B
Authority
CN
China
Prior art keywords
character
vector
sentence
target
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010628393.6A
Other languages
English (en)
Other versions
CN111737991A (zh
Inventor
杨赫
罗超
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN202010628393.6A priority Critical patent/CN111737991B/zh
Publication of CN111737991A publication Critical patent/CN111737991A/zh
Application granted granted Critical
Publication of CN111737991B publication Critical patent/CN111737991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了文本断句位置的识别方法及系统、电子设备及存储介质,其中,文本断句位置的识别方法包括以下步骤:接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量;利用Bi‑LSTM模型提取每个字符向量的语义特征,得到隐向量;对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型;使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签;根据每个字符对应的标签识别所述文本数据的所有断句位置。本发明通过Bi‑LSTM模型提取语义特征,利用CRF模型作为输出层,实现了文本断句位置的识别,进而提高了后续意图识别、命名实体识别、分类任务等下游任务的准确率。

Description

文本断句位置的识别方法及系统、电子设备及存储介质
技术领域
本发明涉及信息技术领域,特别涉及一种文本断句位置的识别方法及系统、电子设备及存储介质。
背景技术
随着人工智能技术的发展,很多重复性的工作将交由机器完成,客服机器人就是一种实例。要使客服机器人更好的服务于客户和下游任务,比如客户说的话的意图识别、命名实体识别等的准确率是至关重要的。断句功能在上述过程中起到一个桥梁作用。当客户说的话因为长度过长,无法进行正确的意图识别或者分类时,将长句截断,即将长句变成短句,以提升后续意图识别、命名实体识别、分类任务等的准确率。
当前,深度学习在人工智能领域应用广泛,基于深度学习的模型,随着层数的加宽和加深,能够很好地实现特征提取的作用,相较于传统的机器学习方法,利用深度学习做工程应用时,省去了人工提取特征的步骤,往往还能取得更好的效果。因此,深度学习在文本、图像、音频等领域都被广泛地使用。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音识别得到的文本数据由于未断句导致后续意图识别、命名实体识别、分类任务等下游任务准确率低下的缺陷,提供一种文本断句位置的识别方法及系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种文本断句位置的识别方法,包括以下步骤:
接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量;
利用Bi-LSTM(Bidirectional Long Short-Term Memory,双向长短期记忆网络)模型提取每个字符向量的语义特征,得到隐向量;
对所述隐向量进行处理,并将处理后的隐向量输入至CRF(conditional randomfield,条件随机场)模型;
使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,其中,所述标签用于表征所述字符后面是否为断句位置;
根据每个字符对应的标签识别所述文本数据的所有断句位置。
较佳地,所述根据每个字符对应的标签识别所述文本数据的所有断句位置,具体包括以下步骤:
若目标字符对应的标签表征所述目标字符后面为断句位置,则判断所述目标字符与下一个位置的字符组成的字符串是否为单词;
若否,则识别所述目标字符后面为断句位置。
较佳地,所述根据每个字符对应的标签识别所述文本数据的所有断句位置,具体包括以下步骤:
若目标字符对应的标签表征所述目标字符后面为断句位置,且所述目标字符为英文字符,则判断所述目标字符的下一个位置是否为英文字符;
若否,则识别所述目标字符后面为断句位置。
较佳地,基于以下步骤训练所述Bi-LSTM模型和所述CRF模型:
对人工标记的目标文本数据添加用于表征是否为断句位置的标签;
将所述目标文本数据中的每个字符映射为字符向量;
利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量;
对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型;
使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签;
根据人工标注的断句位置与预测得到的标签调整所述Bi-LSTM模型和所述CRF模型的参数,直至预测得到的标签所对应的损失值达到收敛。
较佳地,所述对所述隐向量进行处理包括以下步骤:按照最后一个维度对所述隐向量进行拼接。
本发明还提供一种文本断句位置的识别系统,包括:
接收模块,用于接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量;
提取模块,用于利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量;
处理模块,用于对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型;
预测模块,用于使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,其中,所述标签用于表征所述字符后面是否为断句位置;
识别模块,用于根据每个字符对应的标签识别所述文本数据的所有断句位置。
较佳地,所述识别模块具体用于在目标字符对应的标签表征所述目标字符后面为断句位置的情况下,判断所述目标字符与下一个位置的字符组成的字符串是否为单词,若否,则识别所述目标字符后面为断句位置。
较佳地,所述识别模块具体用于在目标字符对应的标签表征所述目标字符后面为断句位置且所述目标字符为英文字符的情况下,判断所述目标字符的下一个位置是否为英文字符,若否,则识别所述目标字符后面为断句位置。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的文本断句位置的识别方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的文本断句位置的识别方法的步骤。
本发明的积极进步效果在于:通过将接收的文本数据中的每个字符映射为字符向量,利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量,并对所述隐向量进行处理后输入至CRF模型,以及使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,最后根据每个字符对应的标签识别所述文本数据的所有断句位置。与现有技术中未对语音识别得到的文本数据进行断句相比,通过Bi-LSTM模型提取语义特征,并利用CRF模型作为输出层,实现了文本断句位置的识别,进而提高了后续意图识别、命名实体识别、分类任务等下游任务的准确率。
附图说明
图1为本发明实施例1提供的一种文本断句位置的识别方法的流程图。
图2为本发明实施例1提供的一种文本断句位置的识别方法的框架图。
图3为本发明实施例2提供的一种文本断句位置的识别系统的结构框图。
图4为本发明实施例3的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种文本断句位置的识别方法,参照图1,该文本断句位置的识别方法包括以下步骤:
步骤S101、接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量。
在具体实施中,客服机器人通过ASR(Automatic Speech Recognition,自动语音识别技术)将人的语音转换为文本,得到步骤S101中的文本数据。其中,通过ASR语音识别后得到的文本数据是不带任何标点符号的一些单字或单词,例如[“您好”,“请问”,“订单”,“号”,“是”,“多少”],这样获得的不带标点符号的结果直接导致后续任务,比如用户话术意图匹配,用户话术场景识别,用户话术情感分类等的正确率过低。然而将识别出的文本数据进行断句,将切割后的语句做一些处理后进行下游任务,可以大幅提升下游任务的准确率。
本实施方式中,针对[“您好”,“请问”,“订单”,“号”,“是”,“多少”]的文本数据,将其中的每个字符映射为字符向量(char Embedding),例如将“您”映射为字符向量x1、将“好”映射为字符向量x2
在可选的一种实施方式中,步骤S101中还包括对上述文本数据进行预处理,并将得到的词语放入不同的子列表中。上述例子中的文本数据,经过预处理后,分别将“您好”、“请问”、“订单”、“号”、“是”以及“多少”放入至六个子列表中。
步骤S102、利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量。
Bi-LSTM作为常用的NLP(Natural Language Processing,自然语言处理)方面特征提取器,其输入门、遗忘门以及记忆细胞之间的配合,可以很好地解决RNN(RecurrentNeural Network,循环神经网络)模型不能把握文本全局信息的问题。遗忘门以及记忆细胞之间的相加操作,又可以很好地解决深度学习模型在序列过长情况下,梯度衰减问题。
参照图2,针对字符向量xi,利用Bi-LSTM提取语义特征,得到i时刻的隐向量hi
步骤S103、对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型。CRF模型可以兼顾label->char的喷射概率以及label->label之间的转移概率,故在特征提取后使用CRF模型作为输出层,用于预测字符向量的标签。
在可选的一种实施方式中,按照最后一个维度对上述隐向量进行拼接处理,并将拼接完成的隐向量输入至CRF模型。
步骤S104、使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,其中,所述标签用于表征所述字符后面是否为断句位置。
由于维特比算法具有获取全局最优序列的特点,负责CRF模型输出序列的最终解码工作。
本实施例中,CRF模型与Bi-LSTM模型的配合,可以完美实现ASR识别文本数据的断句位置。
步骤S105、根据每个字符对应的标签识别所述文本数据的所有断句位置。
在可选的一种实施方式中,步骤S105具体包括:
若目标字符对应的标签表征所述目标字符后面为断句位置,则判断所述目标字符与下一个位置的字符组成的字符串是否为单词;
若是,则识别所述目标字符后面不为断句位置;若否,则识别所述目标字符后面为断句位置。
在一个例子中,针对目标字符“您”映射后的字符向量,步骤S104预测输出的标签表征目标字符“您”后面为断句位置,通过判断目标字符“您”与下一个位置的字符“好”组成的字符串“您好”为单词,最终识别目标字符“您”后面不是断句位置。本实施方式中,组成的字符串是否为单词是根据输入的ASR识别结果的每一个子字符串决定的。其中,步骤S101中接收的文本数据是ASR识别的分好词的结果。
在另一个例子中,针对目标字符“好”映射后的字符向量,步骤S104预测输出的标签表征目标字符“好”后面为断句位置,通过判断目标字符“好”与下一个位置的字符“请”组成的字符串“好请”不是一个单词,则最终识别目标字符“好”后面是断句位置。
在可选的另一种实施方式中,文本数据中携带有英文字符,例如[“客人”,“张”,“三”,“的”,“订单”,“号”,“可以”,“check”,“一”,“下”,“吗”,“Thank”,“you”]。步骤S105具体包括:
若目标字符对应的标签表征所述目标字符后面为断句位置,且所述目标字符为英文字符,则判断所述目标字符的下一个位置是否为英文字符。
若目标字符的下一个位置不是英文字符,则识别所述目标字符后面为断句位置。在一个例子中,针对目标字符“k”(其所在的单词为check)映射后的字符向量,步骤S104预测输出的标签表征目标字符“k”后面为断句位置,通过判断目标字符“k”的下一个位置“一”不是英文字符,最终识别目标字符“k”后面是断句位置。
若目标字符的下一个位置是英文字符,则进一步判断目标字符所在的单词与下一个位置英文字符所在的单词是否分别存放在两个子列表中,如果这两个单词分别存放在两个子列表中,则最终识别目标字符后面是断句位置,解码时在这两个单词之间增加空格。
在一个例子中,针对目标字符“k”(其所在的单词为Thank)映射后的字符向量,步骤S104预测输出的标签表征目标字符“k”后面为断句位置,通过判断目标字符“k”的下一个位置“y”为英文字符,进一步判断目标字符“k”所在的单词“Thank”与下一个位置英文字符“y”所在的单词“you”分别存放在两个子列表中,那么最终识别目标字符“k”后面为断句位置,解码时在这两个单词之间增加空格,即输出“Thank you”,而不是输出“Thankyou”。
在可选的一种实施方式中,文本数据中携带有数字,例如[“客人”,“的”,“订单”,“号”,“是”,“2345433”]。为了防止将数字类型的表达错误断开,步骤S105具体包括:
若目标字符对应的标签表征所述目标字符后面为断句位置,且所述目标字符为数字,则判断所述目标字符的下一个位置是否为数字,若下一个位置也是数字,则最终识别目标字符后面不是断句位置。
在上述例子中,针对目标字符“2”映射后的字符向量,步骤S104预测输出的标签表征目标字符“2”后面为断句位置,通过判断目标字符“2”的下一个位置“3”为数字,则最终识别目标字符“2”后面不是断句位置。
在可选的一种实施方式中,基于以下步骤训练步骤S102中的Bi-LSTM模型和步骤S103中的CRF模型:
步骤S201、对人工标记的目标文本数据添加用于表征是否为断句位置的标签。
在可选的一种实施方式中,对人工标记的目标文本数据添加两种标签,具体地,将一句话中需要断开的位置标记为O,其他位置的字符标记为N。举个例子,针对人工标记的“您好。我这边是携程旅行网。”的目标文本数据,添加标签后为NONNNNNNNNO。
在可选的另一种实施方式中,对人工标记的目标文本数据添加三种标签,具体地,将一句话的开头字符标记为B,中间字符标记为I,需要断开的位置标记为O。举个例子,针对人工标记的“您好。我这边是携程旅行网。”的目标文本数据,添加标签后为BOBIIIIIIIO。
步骤S202、将所述目标文本数据中的每个字符映射为字符向量,例如将“您”映射为字符向量x1、“好”映射为字符向量x2、“我”映射为字符向量x3
步骤S203、利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量。
步骤S204、对上述隐向量进行处理,并将处理后的隐向量输入至CRF模型。
步骤S205、使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签。
步骤S206、根据人工标注的断句位置与预测得到的标签调整所述Bi-LSTM模型和所述CRF模型的参数,直至预测得到的标签所对应的损失值达到收敛。
步骤S206中,针对每个字符向量,若预测得到的标签所表征的断句位置与人工标注的断句位置不同,举个例子,预测得到的标签表征“您”字符后面是断句位置,而人工并未在“您”字符后面标注断句位置,这种情况会导致模型对应的损失值升高,此时需要调整Bi-LSTM模型和CRF模型的参数,然后利用调整后的参数再次执行步骤203-206。
步骤S206中,针对每个字符向量,若预测得到的标签所表征的断句位置与人工标注的断句位置相同,举个例子,预测得到的标签表征“好”字符后面是断句位置,而人工也在“好”字符后面标注了断句位置,这种情况下模型对应的损失值会降低,判断损失值是否低于预设阈值,即判断损失值是否达到收敛,若达到收敛,则停止调整Bi-LSTM模型和CRF模型的参数。也即Bi-LSTM模型和CRF模型训练完成,可以利用训练好的模型对新输入的文本数据的断句位置进行预测。
本实施例中,利用Bi-LSTM模型和CRF模型对人工已经标记好的正确的断句样本进行学习,学到训练样本中每一句话需要断开位置的信息。再使用损失值较低的模型对新输入的文本数据进行预测,从而获得文本数据的断句位置。
实施例2
本实施例提供一种文本断句位置的识别系统,参照图3,文本断句位置的识别系统20包括接收模块21、提取模块22、处理模块23、预测模块24以及识别模块25。
接收模块21用于接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量。
提取模块22用于利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量。
处理模块23用于对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型。
预测模块24用于使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,其中,所述标签用于表征所述字符后面是否为断句位置。
识别模块25用于根据每个字符对应的标签识别所述文本数据的所有断句位置。
在可选的一种实施方式中,识别模块25具体用于在目标字符对应的标签表征所述目标字符后面为断句位置的情况下,判断所述目标字符与下一个位置的字符组成的字符串是否为单词,若否,则识别所述目标字符后面为断句位置。
在可选的另一种实施方式中,识别模块25具体用于在目标字符对应的标签表征所述目标字符后面为断句位置且所述目标字符为英文字符的情况下,判断所述目标字符的下一个位置是否为英文字符,若否,则识别所述目标字符后面为断句位置。
实施例3
图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的文本断句位置的识别方法。图4显示的电子设备3仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备3可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备3的组件可以包括但不限于:上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。
总线6包括数据总线、地址总线和控制总线。
存储器5可以包括易失性存储器,例如随机存取存储器(RAM)51和/或高速缓存存储器52,还可以进一步包括只读存储器(ROM)53。
存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55,这样的程序模块54包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器4通过运行存储在存储器5中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的文本断句位置的识别方法。
电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且,模型生成的设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器9通过总线6与模型生成的设备3的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备3使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的文本断句位置的识别方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的文本断句位置的识别方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (6)

1.一种文本断句位置的识别方法,其特征在于,包括以下步骤:
接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量;
利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量;
对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型;
使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,其中,所述标签用于表征所述字符后面是否为断句位置;
根据每个字符对应的标签识别所述文本数据的所有断句位置;
所述根据每个字符对应的标签识别所述文本数据的所有断句位置,具体包括以下步骤:
若目标字符对应的标签表征所述目标字符后面为断句位置,则判断所述目标字符与下一个位置的字符组成的字符串是否为单词;
若否,则识别所述目标字符后面为断句位置;
若目标字符对应的标签表征所述目标字符后面为断句位置,且所述目标字符为英文字符,则判断所述目标字符的下一个位置是否为英文字符;
若否,则识别所述目标字符后面为断句位置。
2.如权利要求1所述的识别方法,其特征在于,基于以下步骤训练所述Bi-LSTM模型和所述CRF模型:
对人工标记的目标文本数据添加用于表征是否为断句位置的标签;
将所述目标文本数据中的每个字符映射为字符向量;
利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量;
对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型;
使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签;
根据人工标注的断句位置与预测得到的标签调整所述Bi-LSTM模型和所述CRF模型的参数,直至预测得到的标签所对应的损失值达到收敛。
3.如权利要求1所述的识别方法,其特征在于,所述对所述隐向量进行处理包括以下步骤:按照最后一个维度对所述隐向量进行拼接。
4.一种文本断句位置的识别系统,其特征在于,包括:
接收模块,用于接收语音识别后的文本数据,并将所述文本数据中的每个字符映射为字符向量;
提取模块,用于利用Bi-LSTM模型提取每个字符向量的语义特征,得到隐向量;
处理模块,用于对所述隐向量进行处理,并将处理后的隐向量输入至CRF模型;
预测模块,用于使用维特比算法对CRF模型的输出结果进行解码,根据全局最优序列预测输出所述字符向量的标签,其中,所述标签用于表征所述字符后面是否为断句位置;
识别模块,用于根据每个字符对应的标签识别所述文本数据的所有断句位置;
所述识别模块具体用于在目标字符对应的标签表征所述目标字符后面为断句位置的情况下,判断所述目标字符与下一个位置的字符组成的字符串是否为单词,若否,则识别所述目标字符后面为断句位置;在目标字符对应的标签表征所述目标字符后面为断句位置且所述目标字符为英文字符的情况下,判断所述目标字符的下一个位置是否为英文字符,若否,则识别所述目标字符后面为断句位置。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的文本断句位置的识别方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的文本断句位置的识别方法的步骤。
CN202010628393.6A 2020-07-01 2020-07-01 文本断句位置的识别方法及系统、电子设备及存储介质 Active CN111737991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010628393.6A CN111737991B (zh) 2020-07-01 2020-07-01 文本断句位置的识别方法及系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010628393.6A CN111737991B (zh) 2020-07-01 2020-07-01 文本断句位置的识别方法及系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111737991A CN111737991A (zh) 2020-10-02
CN111737991B true CN111737991B (zh) 2023-12-12

Family

ID=72652605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010628393.6A Active CN111737991B (zh) 2020-07-01 2020-07-01 文本断句位置的识别方法及系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111737991B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711939A (zh) * 2020-12-23 2021-04-27 深圳壹账通智能科技有限公司 基于自然语言的断句方法、装置、设备及存储介质
CN113536799B (zh) * 2021-08-10 2023-04-07 西南交通大学 基于融合注意力的医疗命名实体识别建模方法
CN113807089A (zh) * 2021-09-16 2021-12-17 华为技术有限公司 文本数据的处理方法、神经网络的训练方法以及相关设备
CN113836921B (zh) * 2021-11-24 2022-03-08 北京嘉和海森健康科技有限公司 纸质病例数据电子化方法、装置及电子设备
CN114202647B (zh) * 2022-02-16 2022-07-05 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869446A (zh) * 2016-03-29 2016-08-17 广州阿里巴巴文学信息技术有限公司 一种电子阅读装置和语音阅读加载方法
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
CN111160004A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句模型的建立方法及装置
CN111160003A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869446A (zh) * 2016-03-29 2016-08-17 广州阿里巴巴文学信息技术有限公司 一种电子阅读装置和语音阅读加载方法
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN111160004A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句模型的建立方法及装置
CN111160003A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句方法及装置
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究;程宁 等;《中文信息学报》;第34卷(第4期);1-9 *

Also Published As

Publication number Publication date
CN111737991A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737991B (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111191030B (zh) 基于分类的单句意图识别方法、装置和系统
CN110245348B (zh) 一种意图识别方法及系统
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110377714A (zh) 基于迁移学习的文本匹配方法、装置、介质及设备
CN111753524A (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
US11126797B2 (en) Toxic vector mapping across languages
CN111858843B (zh) 一种文本分类方法及装置
CN111177186B (zh) 基于问题检索的单句意图识别方法、装置和系统
CN108897869B (zh) 语料标注方法、装置、设备和存储介质
CN111125317A (zh) 对话型文本分类的模型训练、分类、系统、设备和介质
EP4109324A2 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
CN108710704A (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN111160004B (zh) 一种断句模型的建立方法及装置
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN109726397B (zh) 中文命名实体的标注方法、装置、存储介质和电子设备
CN112825114A (zh) 语义识别方法、装置、电子设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN110991179A (zh) 基于电力专业术语的语义分析方法
CN114120978A (zh) 情绪识别模型训练、语音交互方法、装置、设备及介质
CN114999463B (zh) 语音识别方法、装置、设备及介质
CN111144118A (zh) 口语化文本中命名实体的识别方法、系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant