CN111079405A - 文本信息识别方法、装置、存储介质和计算机设备 - Google Patents
文本信息识别方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN111079405A CN111079405A CN201911207151.3A CN201911207151A CN111079405A CN 111079405 A CN111079405 A CN 111079405A CN 201911207151 A CN201911207151 A CN 201911207151A CN 111079405 A CN111079405 A CN 111079405A
- Authority
- CN
- China
- Prior art keywords
- text information
- character
- recognized
- label
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种文本信息识别方法、装置、存储介质和计算机设备,所述方法包括:获取待识别文本信息;将待识别文本信息输入至已训练的语言模型中,得到待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。本申请提供的方案提高了文本信息识别的准确率,从而提高了意图识别的准确率。
Description
技术领域
本申请涉及计算机互联网技术领域,特别是涉及一种文本信息识别方法、装置、存储介质和计算机设备。
背景技术
对于企业的应用而言,正确理解用户的意图是提升用户的满意度的关键。一般来说,用户通过语音或者文本输入查询信息,系统需要提取查询信息中的句子主干,以确定用户的意图。传统的解决方案是:首先,对句子进行分词、词性标注等预处理;其次,针对预处理结果,利用依存分析工具,得到句子中各个单词的词性以及单词之间的依赖关系;最后,结合人工规则,为句子中的每个单词赋权,权重大小代表该单词在句子中的重要性。
但是,由于中文句式灵活多变,单词之间关系复杂,传统的文本信息识别方法存在意图识别准确率低的问题。
发明内容
基于此,有必要针对传统的文本信息识别方法存在的意图识别准确率低的技术问题,提供一种文本信息识别方法、装置、存储介质和计算机设备。
一种文本信息识别方法,包括:
获取待识别文本信息;
将待识别文本信息输入至已训练的语言模型中,得到待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;已训练的语言模型是根据句子主干样本数据训练得到的;
根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;
根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。
一种文本信息识别装置,包括:
获取模块,用于获取待识别文本信息;
获取模块,还用于将待识别文本信息输入至已训练的语言模型中,得到待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;已训练的语言模型是根据句子主干样本数据训练得到的;
调整模块,用于根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;
确定模块,用于根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。
一种存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行文本信息识别方法的步骤。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行文本信息识别方法的步骤。
上述文本信息识别方法、装置、存储介质和计算机设备,根据已训练的语言模型确定待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签,根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签,根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。这样,通过已训练的语言模型初步确定待识别文本信息的句子主干,根据预设的字典进一步调整句子主干,得到最终确定的句子主干,提高了对文本信息的文本信息识别的准确率,从而提高了意图识别的准确率。
附图说明
图1为一个实施例中用于实现文本信息识别方法的终端的内部结构图;
图2为一个实施例中文本信息识别方法的流程示意图;
图3为一个实施例中已训练的语言模型的结构示意图;
图4为一个实施例中预设的字典的应用环境示意图;
图5为另一个实施例中预设的字典的应用环境示意图;
图6为另一个实施例中文本信息识别方法的流程示意图;
图7为一个实施例中文本信息识别效果的示意图;
图8为又一个实施例中文本信息识别方法的流程示意图;
图9为另一个实施例中文本信息识别装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中终端的内部结构示意图。如图1所示,该终端包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口、显示屏和输入装置。其中,终端的非易失性存储介质存储有操作系统,还可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器实现一种文本信息识别方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。该内存储器中也可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本信息识别方法。网络接口用于与服务器或其他终端进行网络通信。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等。输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图2所示,在一个实施例中,提供了一种文本信息识别方法,该文本信息识别方法具体包括如下步骤:
步骤202,获取待识别文本信息。
其中,待识别文本信息可以是输入的文本信息,也可以是根据输入的语音转换得到的文本信息。
步骤204,将待识别文本信息输入至已训练的语言模型中,得到待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;已训练的语言模型是根据句子主干样本数据训练得到的。
一般来说,构成句子的成分有主干成分和修饰成分,主干成分为主语、谓语、宾语,修饰成分为定语、状语、补语。构成主语的词性一般为名词或者代词,构成谓语的词性一般为动词或者形容词,构成宾语的词性一般为名词或者代词。在句子中识别主干成分,即在句子中识别主语、谓语和宾语。比如“灰白的天突然下起丝丝细雨”,该句的主干为“天下细雨”。本实施例中,通过已训练的语言模型初步确定待识别文本信息的句子主干,根据预设的字典进一步调整句子主干,得到最终确定的句子主干,提高了对文本信息的文本信息识别的准确率,从而提高了意图识别的准确率。
其中,字符是指待识别文本信息中的字,比如“灰白的天突然下起丝丝细雨”,每一个字均为一个字符。
其中,标注标签用于标注各个字符在待识别文本信息中的属性,该属性可表征该字符是否是主干成分。标注标签包括主干标签和非主干标签,主干标签对应的字符在待识别文本信息中为主干成分,非主干标签对应的字符在待识别文本信息中为非主干成分。
标注标签的属性可包括:词的起始字符以及是否为主干成分、词的中间字符以及是否为主干成分、词的结束字符以及是否为主干成分、单个字符以及是否为主干成分。比如,采用B、I、E、S与T、F两两组合得到标注标签,即BT、IT、ET、ST、BF、IF、EF、SF。其中,B代表一个词的起始字符,I代表一个词的中间字符,E代表一个词的结束字符,S代表单个字符,T代表字符属于句子主干,F代表字符不属于句子主干。那么BT代表词的起始字符且为主干成分,IT代表词的中间字符且为主干成分,ET代表词的结束字符且为主干成分,ST代表单个字符且为主干成分,BF代表词的起始字符且不为主干成分,IF代表词的中间字符且不为主干成分,EF代表词的结束字符且不为主干成分,SF代表单个字符且不为主干成分。比如“灰白的天突然下起丝丝细雨”,正确的标注结果应为“灰(BF)白(EF)的(SF)天(ST)突(BF)然(EF)下(ST)起(SF)丝(BF)丝(EF)细(BT)雨(ET)”。
通过已训练的语言模型,可得到待识别文本信息中每个字符对应各个标注标签的概率值,或者,得到待识别文本信息中每个字符识别得到的标签。可以理解,只要可确定待识别文本信息中每个字符对应各个标注标签的概率值,或者可确定待识别文本信息中每个字符识别得到的标签的序列标注模型,均可适用于本实施例的技术方案。比如HMM(HiddenMarkov Model)模型、MEMM(Maximum Entropy Markov Model)模型、CRF(conditionalrandom field,条件随机场)模型、LSTM(Long Short-Term Memory,长短记忆网络)模型、Bi-LSTM(Bi-directional Long Short-Term Memory)模型、卷积神经网络模型、BiLSTM-CNN-CRF模型、LSTM-CNN-CRF模型、LSTM-CRF模型、BiLSTM-CRF模型等。
以已训练的语言模型为BiLSTM-CRF模型为例,可通过BiLSTM的分类器网络层得到待识别文本信息中每个字符对应各个标注标签的概率值,也可通过条件随机场层得到待识别文本信息中每个字符的标签。在一个实施例中,已训练的语言模型的训练方式为:基于TensorFlow构建已训练的语言模型,根据mini-batch梯度下降优化算法和句子主干样本数据训练已训练的语言模型。其中,句子主干样本数据包括带噪声的样本数据以及人工标注样本数据。
首先,借助句子主干分析开源工具(比如wordrank),对初始样本数据进行主干识别,得到带噪声的样本数据。其次,在带噪声的样本数据中,选取一部分进行人工标注纠正,得到人工标注样本数据。然后,选取一部分人工标注样本数据和一部分带噪声的样本数据,根据mini-batch梯度下降优化算法训练已训练的语言模型。比如batch为2048,选取1024个人工标注样本数据和1024个带噪声的样本数据训练已训练的语言模型。这种训练方式,提升人工标注样本数据的复用率,同时保证样本数据的多样性。
步骤206,根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签。
其中,预设的字典包括第一字典和第二字典。第一字典包括主干字符,主干字符可以是主语、谓语和宾语;第二字典包括非主干字符,非主干字符可以是定语、状语、补语等。预设的字典的构建方式为:搜集大量的样本字符,该样本字符可包括各个专业领域的常用的字符,比如保险领域、互联网领域、金融领域、法律领域等;按照是否为主干成分,将搜集到的字符分别添加至第一字典和第二字典。
根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值的方式,可以是:针对待识别文本信息中一字符,若第一字典中有该字符,则提升该字符对应标注标签中主干标签的概率值;若第二字典中有该字符,或者预设的字典中没有该字符,则降低该字符对应标注标签中主干标签的概率值。
根据预设的字典调整待识别文本信息中各个字符识别得到的标签的方式,可以是:针对待识别文本信息中一字符,第一字典中有该字符,则将该字符识别得到的标签更新为主干标签;若该句子中,第二字典中有该字符,或者预设的字典中没有该字符,则将该字符识别得到的标签更新为非主干标签。
步骤208,根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。
根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,确定待识别文本信息的句子主干的方式,可以是:选取各个字符的最大概率值对应的标注标签作为该字符识别得到的标签,进而在标签中选取主干标签对应的字符生成待识别文本信息的主干。
根据调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干的方式,可以是:在标签中选取主干标签对应的字符生成待识别文本信息的主干。
本实施例公开的技术方案中,通过已训练的语言模型初步确定待识别文本信息的句子主干,根据预设的字典进一步调整句子主干,得到最终确定的句子主干,提高了对文本信息的文本信息识别的准确率,从而提高了意图识别的准确率。
在一个实施例中,将所述待识别文本信息输入至已训练的语言模型中,得到所述待识别文本信息中各个字符对应各个标注标签的概率值,包括:获取待识别文本信息中各个字符的字向量;将各个字符的字向量输入至已训练的语言模型中,通过前向长短记忆网络层、后向长短记忆网络层以及分类器网络层进行处理,得到待识别文本信息中各个字符对应各个标注标签的概率值。
其中,字向量是指用向量的方式表征字符。获取字符的字向量的方式可以是:通过One Hot编码方式,将各个字符转化为稀疏向量,得到待识别文本信息的稀疏矩阵。该稀疏矩阵可为A*B的形式,其中,A为字符的总字数,B为字符对应的向量的维度,向量的维度可根据实际应用进行设置,比如32、64、128、256等。在稀疏矩阵中,每一行向量对应待识别文本信息的一个字符。每一行向量的长度为字符的总字数,每一行向量中只有一个1,其它全为0,1的位置对应该字符在映射表中的身份标识。
如图3所示,以已训练的语言模型为BiLSTM-CRF模型为例,已训练的语言模型可包括:输入层、嵌入层、BiLSTM、分类器网络层和条件随机场层。
输入层用于接收输入的待识别文本信息中各个字符的稀疏向量构成的稀疏向量矩阵,并将稀疏向量矩阵发送至嵌入层。
嵌入层对输入的稀疏向量矩阵进行降维操作,得到密集向量矩阵,并将密集向量矩阵发送至BiLSTM层。嵌入层相当于一个简单的神经网络模型,其基本思路是将每个字符对应的稀疏向量映射成固定长度的短向量,从而实现降维。并且,嵌入层基于各个字符之间相同的特征进行训练,因此在密集矩阵中,语义相近的字符之间的向量具有关联性。
BiLSTM层包括前向长短记忆网络层以及后向长短记忆网络层。基于输入的密集向量矩阵,前向长短记忆网络层以及后向长短记忆网络层处理,得到另一密集向量矩阵,将另一密集向量矩阵发送至分类器网络层。BiLSTM层可捕捉双向的语义依赖,得到的密集向量矩阵不仅包含字符级的特征信息,还包含上下文信息。
分类器网络层计算得到各个字符对应各个标注标签的概率值,将概率值发送至条件随机场层。可选的,分类器网络层可为Softmax激活函数等。
条件随机场层利用动态规划算法处理输入的各个字符对应各个标注标签的概率值。条件随机场层有转移特征,可基于分类器网络层输出的结果做调整,得到待识别文本信息中各个字符的标签。
本实施例公开的技术方案中,根据已训练的语言模型确定各个字符对应各个标注标签的概率值,提高对句子主干成分识别的准确率。
在一个实施例中,将所述待识别文本信息输入至已训练的语言模型中,得到所述待识别文本信息中各个字符识别得到的标签,包括:获取待识别文本信息中各个字符的字向量;将各个字符的字向量输入至已训练的语言模型中,通过前向长短记忆网络层处理、后向长短记忆网络层处理、分类器网络层处理以及条件随机场层进行处理,得到待识别文本信息中各个字符识别得到的标签。
识别得到的标签如图3所示,以已训练的语言模型为BiLSTM-CRF模型为例,已训练的语言模型可包括:输入层、嵌入层、BiLSTM、分类器网络层和条件随机场层。
条件随机场层利用动态规划算法处理输入的各个字符对应各个标注标签的概率值。条件随机场层有转移特征,可基于分类器网络层输出的结果做调整,得到待识别文本信息中各个字符的标签。
本实施例公开的技术方案中,根据已训练的语言模型确定各个字符的标签,提高对句子主干成分识别的准确率。
在一个实施例中,根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,包括:根据待识别文本信息中各个字符遍历预设的字典;若第一字典中有字符,则提升字符对应标注标签中主干标签的概率值;若第二字典中有字符,或者预设的字典中没有字符,则降低字符对应标注标签中主干标签的概率值。
其中,主干标签是指:该标注标签对应的字符为主干;非主干标签是指:该标注标签对应的字符为非主干。比如,标注标签包括BT、IT、ET、ST、BF、IF、EF、SF,其中,B代表一个词的起始字符,I代表一个词的中间字符,E代表一个词的结束字符,S代表单个字符,T代表字符属于句子主干,F代表字符不属于句子主干,那么BT、IT、ET、ST为主干标签,BF、IF、EF、SF为非主干标签。
预设的字典对已训练的语言模型确定的主干成分进行调整,得到最终确定的句子的主干成分。如图4所示,预设的字典可对根据已训练的语言模型确定的各个字符对应各个标注标签的概率值进行调整。
针对待识别文本信息中一字符,若第一字典中有该字符,则提升该字符对应标注标签中主干标签的概率值。比如,“T”代表字符属于句子主干,“F”代表字符不属于句子主干,“灰白的天突然下起丝丝细雨”,针对“天”这个字符,其通过已训练的语言模型确定的各个标注标签“BT、IT、ET、ST、BF、IF、EF、SF”的概率值为“10%、10%、10%、20%、10%、10%、10%、20%”,若在第一字典中有“天”这个字符,则提升包含有“T”的标注标签的概率,得到:“12%、12%、12%、22%、8%、8%、8%、18%”。若第二字典中有该字符,或者预设的字典中没有该字符,则降低该字符对应标注标签中主干标签的概率值。比如,“灰白的天突然下起丝丝细雨”,针对“灰”这个字符,其通过已训练的语言模型确定的各个标注标签“BT、IT、ET、ST、BF、IF、EF、SF”的概率值为“10%、10%、10%、20%、20%、10%、10%、10%”,若在第二字典中有“灰”这个字符,则降低包含有“T”的标注标签的概率,得到:“8%、8%、8%、18%、22%、12%、12%、12%”。
在对概率值进行调整时,提升或者降低主干标签的概率值的方式可根据实际应用进行设置。以提升主干标签的概率值为例,当提升主干标签的概率值时,对应会降低非主干标签的概率值。针对各个主干标签,可提升相同的幅度,也可提升不同的幅度,针对各个非主干标签,可降低相同的幅度,也可降低不同的幅度。即,存在以下几种情况:针对各个主干标签提升相同的幅度,针对各个非主干标签降低相同的幅度;针对各个主干标签提升不同的幅度,针对各个非主干标签降低相同的幅度;针对各个主干标签提升相同的幅度,针对各个非主干标签降低不同的幅度;针对各个主干标签提升不同的幅度,针对各个非主干标签降低不同的幅度。可以理解,当针对各个主干标签提升不同的幅度时,一些主干标签的概率值可以不做调整,同理,针对各个非主干标签降低不同的幅度时,一些非主干标签的概率值也可以不做调整。在对概率值进行调整时,提升或者降低主干标签的概率值的具体幅度大小可根据实际应用进行设置。以提升主干标签的概率值为例,可按照预设的概率值进行调整,比如提升2%、4%等;也可按照预设的比例进行调整,比如提升标注标签当前概率值的2%等。
在一个实施例中,提升字符对应标注标签中主干标签的概率值,包括:提升字符对应标注标签中主干标签的概率值,以使字符对应标注标签中主干标签的概率值,大于字符对应标注标签中非主干标签的概率值。
在一个实施例中,降低字符对应标注标签中主干标签的概率值,包括:降低字符对应标注标签中主干标签的概率值,以使字符对应标注标签中主干标签的概率值,小于字符对应标注标签中非主干标签的概率值。
本实施例公开的技术方案中,根据预设的字典对已训练的语言模型确定的主干成分进行调整,提高了对句子主干成分识别的准确率。
在一个实施例中,根据预设的字典调整待识别文本信息中各个字符识别得到的标签,包括:根据待识别文本信息中各个字符遍历预设的字典;若第一字典中有该字符,则将该字符识别得到的标签更新为主干标签;若第二字典中有该字符,或者预设的字典中没有该字符,则将该字符识别得到的标签更新为非主干标签。
如图5所示,预设的字典可对根据已训练的语言模型确定的各个字符的标签进行调整。
当将字符的标签更新为主干标签时,若字符当前的标签为非主干标签,则将该非主干标签更改为主干标签;若字符当前的标签为主干标签,则保持不变。在上述的例子中,BT代表词的起始字符且为主干成分,BF代表词的起始字符且不为主干成分,则将该非主干标签更改为主干标签,即将BF更改为BT。
本实施例公开的技术方案中,根据预设的字典对已训练的语言模型确定的主干成分进行调整,提高了对句子主干成分识别的准确率。
如图6所示,在一个具体的实施例中,文本信息识别方法包括以下步骤:
S602,获取BiLSTM-CRF模型的分类器网络层输出的待识别文本信息中各个字符对应各个标注标签的概率值;
S604,根据待识别文本信息中各个字符遍历预设的字典;
S606,若第一字典中有字符,则提升字符对应标注标签中主干标签的概率值,若第二字典中有字符,或者预设的字典中没有字符,则降低字符对应标注标签中主干标签的概率值;
S608,将调整后的各个字符对应各个标注标签的概率值输入至条件随机场层,得到条件随机场层输出的各个字符的标签;
S610,根据各个字符的标签确定待识别文本信息的句子主干。
如图7所示,通过该方法,显著提高了文本信息识别的精度和召回率。
本实施例公开的技术方案中,通过已训练的语言模型初步确定句子的主干成分,根据预设的字典对已训练的语言模型确定的主干成分进行调整,得到最终确定的句子的主干成分。这样,提高了对句子主干成分识别的准确率。
如图8所示,在一个具体的实施例中,文本信息识别方法包括以下步骤:
S802,获取BiLSTM-CRF模型的条件随机场层输出的待识别文本信息中各个字符的标签;
S804,根据待识别文本信息中各个字符遍历预设的字典;
S806,若第一字典中有该字符,则将对该字符识别得到的标签更新为主干标签,若第二字典中有该字符,或者预设的字典中没有该字符,则将对该字符识别得到的标签更新为非主干标签;
S808,根据调整后的各个字符的标签确定待识别文本信息的句子主干。
本实施例公开的技术方案中,通过已训练的语言模型初步确定句子的主干成分,根据预设的字典对已训练的语言模型确定的主干成分进行调整,得到最终确定的句子的主干成分。这样,提高了对句子主干成分识别的准确率。
图2、图6和图8为一个实施例中文本信息识别方法的流程示意图。应该理解的是,虽然图2、图6和图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图6和图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种文本信息识别装置900,包括:获取模块902、调整模块904和确定模块906,其中:
获取模块902,用于获取待识别文本信息;
获取模块902,还用于将待识别文本信息输入至已训练的语言模型中,得到待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;已训练的语言模型是根据句子主干样本数据训练得到的;
调整模块904,用于根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签;
确定模块906,用于根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。
本实施例的文本信息识别装置900,根据已训练的语言模型确定待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签,根据预设的字典调整待识别文本信息中各个字符对应各个标注标签的概率值,或者待识别文本信息中各个字符识别得到的标签,根据调整后的待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的待识别文本信息中各个字符识别得到的标签,确定待识别文本信息的句子主干。这样,通过已训练的语言模型初步确定待识别文本信息的句子主干,根据预设的字典进一步调整句子主干,得到最终确定的句子主干,提高了对文本信息的文本信息识别的准确率,从而提高了意图识别的准确率。
在一个实施例中,获取模块902,还用于:获取待识别文本信息中各个字符的字向量;将各个字符的字向量输入至已训练的语言模型中,通过前向长短记忆网络层、后向长短记忆网络层以及分类器网络层进行处理,得到待识别文本信息中各个字符对应各个标注标签的概率值。
在一个实施例中,获取模块902,还用于:获取待识别文本信息中各个字符的字向量;将各个字符的字向量输入至已训练的语言模型中,通过前向长短记忆网络层、后向长短记忆网络层、分类器网络层以及条件随机场层进行处理,得到待识别文本信息中各个字符识别得到的标签。
在一个实施例中,预设的字典包括第一字典和第二字典,第一字典包括主干字符,第二字典包括非主干字符;调整模块904,还用于:根据待识别文本信息中各个字符遍历预设的字典;若第一字典中有字符,则提升字符对应标注标签中主干标签的概率值;若第二字典中有字符,或者预设的字典中没有字符,则降低字符对应标注标签中主干标签的概率值。
在一个实施例中,调整模块904,还用于:提升字符对应标注标签中主干标签的概率值,以使字符对应标注标签中主干标签的概率值,大于字符对应标注标签中非主干标签的概率值。
在一个实施例中,调整模块904,还用于:降低字符对应标注标签中主干标签的概率值,以使字符对应标注标签中主干标签的概率值,小于字符对应标注标签中非主干标签的概率值。
在一个实施例中,调整模块904,还用于:根据待识别文本信息中各个字符遍历预设的字典;若第一字典中有字符,则将字符识别得到的标签更新为主干标签;若第二字典中有字符,或者预设的字典中没有字符,则将字符识别得到的标签更新为非主干标签。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本信息识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本信息识别方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本信息识别装置可以采用一种计算机程序的形式来实现,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本信息识别装置的各个程序模块,比如,图9所示的获取模块902、调整模块904和确定模块906。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本信息识别方法中的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本信息识别方法的步骤。此处文本信息识别方法的步骤可以是上述各个实施例的文本信息识别方法中的步骤。
在一个实施例中,提供了一种存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述文本信息识别方法的步骤。此处文本信息识别方法的步骤可以是上述各个实施例的文本信息识别方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Sync小时link)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本信息识别方法,包括:
获取待识别文本信息;
将所述待识别文本信息输入至已训练的语言模型中,得到所述待识别文本信息中各个字符对应各个标注标签的概率值,或者所述待识别文本信息中各个字符识别得到的标签;所述已训练的语言模型是根据句子主干样本数据训练得到的;
根据预设的字典调整所述待识别文本信息中各个字符对应各个标注标签的概率值,或者所述待识别文本信息中各个字符识别得到的标签;
根据调整后的所述待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的所述待识别文本信息中各个字符识别得到的标签,确定所述待识别文本信息的句子主干。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别文本信息输入至已训练的语言模型中,得到所述待识别文本信息中各个字符对应各个标注标签的概率值,包括:
获取所述待识别文本信息中各个字符的字向量;
将各个字符的字向量输入至所述已训练的语言模型中,通过前向长短记忆网络层、后向长短记忆网络层以及分类器网络层进行处理,得到所述待识别文本信息中各个字符对应各个所述标注标签的概率值。
3.根据权利要求1所述的方法,其特征在于,所述将所述待识别文本信息输入至已训练的语言模型中,得到所述待识别文本信息中各个字符识别得到的标签,包括:
获取所述待识别文本信息中各个字符的字向量;
将各个字符的字向量输入至所述已训练的语言模型中,通过前向长短记忆网络层、后向长短记忆网络层、分类器网络层以及条件随机场层进行处理,得到所述待识别文本信息中各个字符识别得到的标签。
4.根据权利要求1所述的方法,其特征在于,所述预设的字典包括第一字典和第二字典,所述第一字典包括主干字符,所述第二字典包括非主干字符;
所述根据预设的字典调整所述待识别文本信息中各个字符对应各个标注标签的概率值,包括:
根据所述待识别文本信息中各个字符遍历所述预设的字典;
若所述第一字典中有所述字符,则提升所述字符对应所述标注标签中主干标签的概率值;
若所述第二字典中有所述字符,或者所述预设的字典中没有所述字符,则降低所述字符对应所述标注标签中主干标签的概率值。
5.根据权利要求4所述的方法,其特征在于,所述提升所述字符对应所述标注标签中主干标签的概率值的方式,包括:
提升所述字符对应所述标注标签中主干标签的概率值,以使所述字符对应所述标注标签中主干标签的概率值,大于所述字符对应所述标注标签中非主干标签的概率值。
6.根据权利要求4所述的方法,其特征在于,所述降低所述字符对应所述标注标签中主干标签的概率值的方式,包括:
降低所述字符对应所述标注标签中主干标签的概率值,以使所述字符对应所述标注标签中主干标签的概率值,小于所述字符对应所述标注标签中非主干标签的概率值。
7.根据权利要求4所述的方法,其特征在于,所述根据预设的字典调整所述待识别文本信息中各个字符识别得到的标签,包括:
根据所述待识别文本信息中各个字符遍历所述预设的字典;
若所述第一字典中有所述字符,则将所述字符识别得到的标签更新为主干标签;
若所述第二字典中有所述字符,或者所述预设的字典中没有所述字符,则将所述字符识别得到的标签更新为非主干标签。
8.一种文本信息识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别文本信息;
所述获取模块,还用于将所述待识别文本信息输入至已训练的语言模型中,得到所述待识别文本信息中各个字符对应各个标注标签的概率值,或者所述待识别文本信息中各个字符识别得到的标签;所述已训练的语言模型是根据句子主干样本数据训练得到的;
调整模块,用于根据预设的字典调整所述待识别文本信息中各个字符对应各个标注标签的概率值,或者所述待识别文本信息中各个字符识别得到的标签;
确定模块,用于根据调整后的所述待识别文本信息中各个字符对应各个标注标签的概率值,或者调整后的所述待识别文本信息中各个字符识别得到的标签,确定所述待识别文本信息的句子主干。
9.一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207151.3A CN111079405A (zh) | 2019-11-29 | 2019-11-29 | 文本信息识别方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207151.3A CN111079405A (zh) | 2019-11-29 | 2019-11-29 | 文本信息识别方法、装置、存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079405A true CN111079405A (zh) | 2020-04-28 |
Family
ID=70312191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911207151.3A Pending CN111079405A (zh) | 2019-11-29 | 2019-11-29 | 文本信息识别方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079405A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737989A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种意图识别方法、装置、设备及存储介质 |
CN112201253A (zh) * | 2020-11-09 | 2021-01-08 | 平安普惠企业管理有限公司 | 文字标记方法、装置、电子设备及计算机可读存储介质 |
CN112699887A (zh) * | 2020-12-30 | 2021-04-23 | 科大讯飞股份有限公司 | 一种获得数学对象标注模型、数学对象标注的方法和装置 |
CN113205160A (zh) * | 2021-07-05 | 2021-08-03 | 北京世纪好未来教育科技有限公司 | 模型训练、文本识别方法、装置、电子设备和介质 |
CN113806542A (zh) * | 2021-09-18 | 2021-12-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
WO2023168838A1 (zh) * | 2022-03-09 | 2023-09-14 | 青岛海尔科技有限公司 | 语句文本的识别方法和装置、存储介质及电子装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109858041A (zh) * | 2019-03-07 | 2019-06-07 | 北京百分点信息科技有限公司 | 一种半监督学习结合自定义词典的命名实体识别方法 |
-
2019
- 2019-11-29 CN CN201911207151.3A patent/CN111079405A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109858041A (zh) * | 2019-03-07 | 2019-06-07 | 北京百分点信息科技有限公司 | 一种半监督学习结合自定义词典的命名实体识别方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737989A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种意图识别方法、装置、设备及存储介质 |
CN112201253A (zh) * | 2020-11-09 | 2021-01-08 | 平安普惠企业管理有限公司 | 文字标记方法、装置、电子设备及计算机可读存储介质 |
CN112201253B (zh) * | 2020-11-09 | 2023-08-25 | 观华(广州)电子科技有限公司 | 文字标记方法、装置、电子设备及计算机可读存储介质 |
CN112699887A (zh) * | 2020-12-30 | 2021-04-23 | 科大讯飞股份有限公司 | 一种获得数学对象标注模型、数学对象标注的方法和装置 |
CN113205160A (zh) * | 2021-07-05 | 2021-08-03 | 北京世纪好未来教育科技有限公司 | 模型训练、文本识别方法、装置、电子设备和介质 |
CN113806542A (zh) * | 2021-09-18 | 2021-12-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
CN113806542B (zh) * | 2021-09-18 | 2024-05-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
WO2023168838A1 (zh) * | 2022-03-09 | 2023-09-14 | 青岛海尔科技有限公司 | 语句文本的识别方法和装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079405A (zh) | 文本信息识别方法、装置、存储介质和计算机设备 | |
CN111581229B (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
US20190103091A1 (en) | Method and apparatus for training text normalization model, method and apparatus for text normalization | |
CN107122479B (zh) | 一种基于深度学习的用户密码猜测系统 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN112257449B (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN111078887B (zh) | 文本分类方法和装置 | |
US20210390370A1 (en) | Data processing method and apparatus, storage medium and electronic device | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN115525757A (zh) | 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN113239967A (zh) | 文字识别模型训练方法、识别方法、相关设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |