CN116955610A - 一种文本数据的处理方法、装置以及存储介质 - Google Patents

一种文本数据的处理方法、装置以及存储介质 Download PDF

Info

Publication number
CN116955610A
CN116955610A CN202310480024.0A CN202310480024A CN116955610A CN 116955610 A CN116955610 A CN 116955610A CN 202310480024 A CN202310480024 A CN 202310480024A CN 116955610 A CN116955610 A CN 116955610A
Authority
CN
China
Prior art keywords
text
processed
words
word
reference example
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310480024.0A
Other languages
English (en)
Inventor
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310480024.0A priority Critical patent/CN116955610A/zh
Publication of CN116955610A publication Critical patent/CN116955610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本数据的处理方法、装置以及存储介质。通过获取输入的待处理文本;然后对待处理文本中满足预设条件的词语进行提取,以得到提取词语;并基于提取词语进行例句召回;进而将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程,由于采用易错或低频的词语进行例句的实时召回,并基于召回的例句进行参考识别,提高了语言模型对于易错或低频词语的识别能力,提高了对于文本数据异常处理的准确性。

Description

一种文本数据的处理方法、装置以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本数据的处理方法、装置以及存储介质。
背景技术
随着互联网技术的迅速发展,人们对文本交互的要求越来越高。且在文本输入的过程中容易出现错误,因此如何进行文本纠错称为难题。
一般,文本纠错功能基于预训练语言模型实现,模型的输入为可能含有错别字的文本,模型的输出为纠正后的文本。
但是,预训练语言模型的训练语料有限,由于用户文本交流的多元化,训练语料无法完全覆盖,造成模型识别错误,影响文本数据异常处理的准确性。
发明内容
有鉴于此,本申请提供一种文本数据的处理方法,可以有效提高文本数据异常处理的准确性。
本申请第一方面提供一种文本数据的处理方法,可以应用于终端设备中包含文本数据的处理功能的系统或程序中,具体包括:
获取输入的待处理文本;
对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,所述预设条件基于所述待处理文本中内容异常概率以及目标词语设定,所述目标词语基于预训练语言模型中训练语料的词频设定,所述预训练语言模型用于对所述待处理文本进行异常识别;
基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句;
将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。
可选的,在本申请一些可能的实现方式中,所述对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,包括:
获取所述待处理文本对应的所述预训练语言模型所采用的训练语料;
对所述训练语料进行分词,以得到训练词语序列;
对所述训练词语序列进行词频统计,以得到统计信息;
基于所述统计信息对所述训练语料词频小于预设频率的词语进行提取,以确定对应于所述预设条件的所述目标词语;
将所述待处理文本与所述目标词语进行匹配,以得到匹配词语;
将所述待处理文本输入异常检测模型,以得到所述待处理文本中各个字的异常概率;
基于所述异常概率与异常阈值进行比对,以得到异常概率大于所述异常阈值的异常字;
对所述异常字进行词级别的提取,以得到对应于所述预设条件的异常词语;
收集所述匹配词语和所述异常词语,以得到所述提取词语。
可选的,在本申请一些可能的实现方式中,所述对所述异常字进行词级别的提取,以得到对应于所述预设条件的异常词语,包括:
对所述异常字进行词级别的提取,以得到召回词语;
获取所述召回词语对应的发音信息;
基于所述发音信息进行相似度召回,以得到相似词语;
收集所述召回词语和所述相似词语,以得到对应于所述预设条件的异常词语。
可选的,在本申请一些可能的实现方式中,所述基于所述统计信息对所述训练语料词频小于预设频率的词语进行提取,以确定所述目标词语,包括:
获取所述待处理文本的语境信息;
确定所述语境信息对应的预设频率;
基于所述统计信息对所述训练语料词频小于所述预设频率的词语进行提取,以确定所述目标词语。
可选的,在本申请一些可能的实现方式中,所述基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句,包括:
获取针对于所述待处理文本配置的例句库;
在所述例句库中提取包含所述提取词语的召回例句;
将所述召回例句和所述待处理文本进行重叠度比对,以得到比对信息;
基于所述比对信息获取重叠度满足重叠条件的多个所述参考例句。
可选的,在本申请一些可能的实现方式中,所述基于所述比对信息获取重叠度满足重叠条件的多个所述参考例句,包括:
基于所述比对信息获取重叠度满足重叠条件的多个所述比对例句;
获取所述比对例句对应的文本长度信息;
根据所述文本长度信息从所述比对例句中确定所述参考例句。
可选的,在本申请一些可能的实现方式中,所述根据所述文本长度信息从所述比对例句中确定所述参考例句,包括:
获取所述比对例句中包含的符号元素;
基于所述符号元素对所述文本长度信息进行调整,以得到调整长度信息;
根据所述调整长度信息从所述比对例句中确定所述参考例句。
可选的,在本申请一些可能的实现方式中,所述获取针对于所述待处理文本配置的例句库,包括:
获取针对于所述待处理文本的置信资源中的置信语料;
对所述置信语料进行句子级别的拆分,以得到参考例句;
对所述参考例句进行分词操作,以得到例句参考词;
构建所述例句参考词与所述参考例句之间的索引,以得到所述例句库。
可选的,在本申请一些可能的实现方式中,所述将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理,包括:
将所述待处理文本和所述参考例句之间配置分割标识,以得到输入文本;
对所述输入文本按照所述待处理文本和所述参考例句配置类型标签,以得到标记文本;
将所述标记文本输入所述预训练语言模型,以使得所述预训练语言模型按照所述分割标识进行文本分割,并参考分割所得所述参考例句对所述待处理文本进行异常识别;
对异常识别所得的异常信息进行处理。
可选的,在本申请一些可能的实现方式中,所述对所述输入文本按照所述待处理文本和所述参考例句配置类型标签,以得到标记文本,包括:
获取所述待处理文本对应的提取词语的顺序信息;
按照所述顺序信息对所述参考例句进行排序;
对所述输入文本按照所述待处理文本和排序后的所述参考例句配置类型标签,以得到所述标记文本。
可选的,在本申请一些可能的实现方式中,所述待处理文本响应于目标对象在编辑窗口中输入,所述方法还包括:
响应于对异常识别所得的异常信息的处理,确定校正文本;
将所述校正文本与所述异常信息相关联,并将关联后的所述校正文本与所述异常信息在所述编辑窗口中的校正窗口进行展示。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
响应于所述目标对象对于所述校正窗口的触发操作,将所述输入文本中的异常信息替换为所述校正文本。
本申请第二方面提供一种文本数据的处理装置,包括:
获取单元,用于获取输入的待处理文本;
提取单元,用于对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,所述预设条件基于所述待处理文本中内容异常概率以及目标词语设定,所述目标词语基于预训练语言模型中训练语料的词频设定,所述预训练语言模型用于对所述待处理文本进行异常识别;
处理单元,用于基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句;
所述处理单元,还用于将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取所述待处理文本对应的所述预训练语言模型所采用的训练语料;
所述提取单元,具体用于对所述训练语料进行分词,以得到训练词语序列;
所述提取单元,具体用于对所述训练词语序列进行词频统计,以得到统计信息;
所述提取单元,具体用于基于所述统计信息对所述训练语料词频小于预设频率的词语进行提取,以确定对应于所述预设条件的所述目标词语;
所述提取单元,具体用于将所述待处理文本与所述目标词语进行匹配,以得到匹配词语;
所述提取单元,具体用于将所述待处理文本输入异常检测模型,以得到所述待处理文本中各个字的异常概率;
所述提取单元,具体用于基于所述异常概率与异常阈值进行比对,以得到异常概率大于所述异常阈值的异常字;
所述提取单元,具体用于对所述异常字进行词级别的提取,以得到对应于所述预设条件的异常词语;
所述提取单元,具体用于收集所述匹配词语和所述异常词语,以得到所述提取词语。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于对所述异常字进行词级别的提取,以得到召回词语;
所述提取单元,具体用于获取所述召回词语对应的发音信息;
所述提取单元,具体用于基于所述发音信息进行相似度召回,以得到相似词语;
所述提取单元,具体用于收集所述召回词语和所述相似词语,以得到对应于所述预设条件的异常词语。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取所述待处理文本的语境信息;
所述提取单元,具体用于确定所述语境信息对应的预设频率;
所述提取单元,具体用于基于所述统计信息对所述训练语料词频小于所述预设频率的词语进行提取,以确定所述目标词语。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取针对于所述待处理文本配置的例句库;
所述提取单元,具体用于在所述例句库中提取包含所述提取词语的召回例句;
所述提取单元,具体用于将所述召回例句和所述待处理文本进行重叠度比对,以得到比对信息;
所述提取单元,具体用于基于所述比对信息获取重叠度满足重叠条件的多个所述参考例句。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于基于所述比对信息获取重叠度满足重叠条件的多个所述比对例句;
所述提取单元,具体用于获取所述比对例句对应的文本长度信息;
所述提取单元,具体用于根据所述文本长度信息从所述比对例句中确定所述参考例句。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取所述比对例句中包含的符号元素;
所述提取单元,具体用于基于所述符号元素对所述文本长度信息进行调整,以得到调整长度信息;
所述提取单元,具体用于根据所述调整长度信息从所述比对例句中确定所述参考例句。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取针对于所述待处理文本的置信资源中的置信语料;
所述处理单元,具体用于对所述置信语料进行句子级别的拆分,以得到参考例句;
所述处理单元,具体用于对所述参考例句进行分词操作,以得到例句参考词;
所述处理单元,具体用于构建所述例句参考词与所述参考例句之间的索引,以得到所述例句库。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于将所述待处理文本和所述参考例句之间配置分割标识,以得到输入文本;
所述处理单元,具体用于对所述输入文本按照所述待处理文本和所述参考例句配置类型标签,以得到标记文本;
所述处理单元,具体用于将所述标记文本输入所述预训练语言模型,以使得所述预训练语言模型按照所述分割标识进行文本分割,并参考分割所得所述参考例句对所述待处理文本进行异常识别;
所述处理单元,具体用于对异常识别所得的异常信息进行处理。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取所述待处理文本对应的提取词语的顺序信息;
所述处理单元,具体用于按照所述顺序信息对所述参考例句进行排序;
所述处理单元,具体用于对所述输入文本按照所述待处理文本和排序后的所述参考例句配置类型标签,以得到所述标记文本。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于响应于对异常识别所得的异常信息的处理,确定校正文本;
所述处理单元,具体用于将所述校正文本与所述异常信息相关联,并将关联后的所述校正文本与所述异常信息在所述编辑窗口中的校正窗口进行展示。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于响应于所述目标对象对于所述校正窗口的触发操作,将所述输入文本中的异常信息替换为所述校正文本。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的文本数据的处理方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的文本数据的处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的文本数据的处理方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取输入的待处理文本;然后对待处理文本中满足预设条件的词语进行提取,以得到提取词语,该预设条件基于待处理文本中内容异常概率以及目标词语设定,该目标词语基于预训练语言模型中训练语料的词频设定,该预训练语言模型用于对待处理文本进行异常识别;并基于提取词语进行例句召回,以得到包含提取词语的多个参考例句;进而将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程,由于采用易错或低频的词语进行例句的实时召回,并基于召回的例句进行参考识别,提高了语言模型对于易错或低频词语的识别能力,提高了对于文本数据异常处理的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为文本数据的处理系统运行的网络架构图;
图2为本申请实施例提供的一种文本数据的处理的流程架构图;
图3为本申请实施例提供的一种文本数据的处理方法的流程图;
图4为本申请实施例提供的一种文本数据的处理方法的场景示意图;
图5为本申请实施例提供的另一种文本数据的处理方法的场景示意图;
图6为本申请实施例提供的另一种文本数据的处理方法的场景示意图;
图7为本申请实施例提供的另一种文本数据的处理方法的流程图;
图8为本申请实施例提供的另一种文本数据的处理方法的场景示意图;
图9为本申请实施例提供的一种文本数据的处理装置的结构示意图;
图10为本申请实施例提供的一种终端设备的结构示意图;
图11为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种文本数据的处理方法以及相关装置,可以应用于终端设备中包含文本数据的处理功能的系统或程序中,通过获取输入的待处理文本;然后对待处理文本中满足预设条件的词语进行提取,以得到提取词语,该预设条件基于待处理文本中内容异常概率以及目标词语设定,该目标词语基于预训练语言模型中训练语料的词频设定,该预训练语言模型用于对待处理文本进行异常识别;并基于提取词语进行例句召回,以得到包含提取词语的多个参考例句;进而将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程,由于采用易错或低频的词语进行例句的实时召回,并基于召回的例句进行参考识别,提高了语言模型对于易错或低频词语的识别能力,提高了对于文本数据异常处理的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
双向编码表示器(Bidirectional Encoder Representations fromTransformers,BERT):基于Transformers的双向编码表示,采用了预训练语言模型技术,在大规模语料上进行无监督的预训练。
过纠:句子中的某个字是正确的,但是模型判断是错误的,进行了错误的纠错。
漏纠:句子中的某个字是错误的,但是模型判断是正确的,未进行正确的纠错。
应理解,本申请提供的文本数据的处理方法可以应用于终端设备中包含文本数据的处理功能的系统或程序中,例如输入法应用,具体的,文本数据的处理系统可以运行于如图1所示的网络架构中,如图1所示,是文本数据的处理系统运行的网络架构图,如图可知,文本数据的处理系统可以提供与多个信息源的文本数据的处理过程,即通过终端侧的输入的文本数据,使得服务器对文本数据进行异常检测并处理;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到文本数据的处理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述文本数据的处理系统可以运行于个人移动终端,例如:作为输入法应用这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供文本数据的处理,以得到信息源的文本数据的处理处理结果;具体的文本数据的处理系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
随着互联网技术的迅速发展,人们对文本交互的要求越来越高。且在文本输入的过程中容易出现错误,因此如何进行文本纠错称为难题。
一般,文本纠错功能基于预训练语言模型实现,模型的输入为可能含有错别字的文本,模型的输出为纠正后的文本。
但是,预训练语言模型的训练语料有限,由于用户文本交流的多元化,训练语料无法完全覆盖,造成模型识别错误,影响文本数据异常处理的准确性。
为了解决上述问题,本申请提出了一种文本数据的处理方法,该方法应用于图2所示的文本数据的处理的流程框架中,如图2所示,为本申请实施例提供的一种文本数据的处理的流程架构图,用户通过终端的输入操作,输入文本数据,并对文本数据中易错的词语进行例句扩展,从而基于例句进行参考识别,即在语言模型基础上在线融入例句信息,强化模型对文本中低频词/易混淆词的理解,从而减少过纠与漏纠的现象。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种文本数据的处理装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该文本数据的处理装置通过获取输入的待处理文本;然后对待处理文本中满足预设条件的词语进行提取,以得到提取词语,该预设条件基于待处理文本中内容异常概率以及目标词语设定,该目标词语基于预训练语言模型中训练语料的词频设定,该预训练语言模型用于对待处理文本进行异常识别;并基于提取词语进行例句召回,以得到包含提取词语的多个参考例句;进而将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程,由于采用易错或低频的词语进行例句的实时召回,并基于召回的例句进行参考识别,提高了语言模型对于易错或低频词语的识别能力,提高了对于文本数据异常处理的准确性。
本申请实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中文本数据的处理方法进行介绍,请参阅图3,图3为本申请实施例提供的一种文本数据的处理方法的流程图,该管理方法可以是由服务器或终端执行的,本申请实施例至少包括以下步骤:
301、获取输入的待处理文本。
本实施例中,待处理文本可以是由用户输入的,输入方式可以是键盘、语音或其他交互形式输入转化为文本数据的方式,本实施例以键盘输入为例进行说明。
具体的,对于待处理文本的处理如图4所示,图4为本申请实施例提供的一种文本数据的处理方法的场景示意图;即本实施例采用基于参考例句的预训练语言模型识别过程,首先会检测出文本中可能错的词以及低频表达,并从预设的词库中召回这些表达同音/近音的词。进一步,对于提取的每个词从例句库中召回含有这些词的例句,并选择与输入文本语境最相近的例句。然后将这些例句与文本拼接一起送入纠错模型进行纠错。这样模型可以在线学习与输入文本相关的例句,强化对文本中易混淆词和低频词的理解,减少过纠和漏纠的问题。
302、对待处理文本中满足预设条件的词语进行提取,以得到提取词语。
本实施例中,预设条件用于指示容易出错或难以识别的词语,具体可以是基于待处理文本中内容异常概率以及目标词语设定;其中,内容异常概率即为被识别错误的概率,而目标词语即难以识别的词语,该目标词语基于预训练语言模型中训练语料的词频设定,该预训练语言模型用于对待处理文本进行异常识别,即对于预训练语言模型进行针对性的纠错参考。
具体的,提取词语包括低频词语与易错词语两部分。
(1)对于低频词语的确定,可以首先获取待处理文本对应的预训练语言模型所采用的训练语料;然后对训练语料进行分词,以得到训练词语序列;并对训练词语序列进行词频统计,以得到统计信息;然后基于统计信息对训练语料词频小于预设频率的词语进行提取,以确定对应于预设条件的目标词语;从而将待处理文本与目标词语进行匹配,以得到匹配词语,即低频词语。
在一种可能的场景中,可以获取预训练语言模型的训练语料,例如网络搜索资源。对于语料进行分词,并统计词频。将词频小于某个固定阈值(例如100)的词认为是低频词。另外,低频词库也会进行运营管理,人工实时向词库中新增网络新词。
(2)对于易错词语的确定,可以将待处理文本输入异常检测模型,以得到待处理文本中各个字的异常概率;然后基于异常概率与异常阈值进行比对,以得到异常概率大于异常阈值的异常字;并对异常字进行词级别的提取,以得到对应于预设条件的异常词语;从而收集匹配词语和异常词语,以得到提取词语。即基于预训练好的检错模型对输入文本进行检错,检错模型将返回文本中每个字是错别字的概率,对于大于某个特定阈值的字,认为是可能有错的词,进行词级别的提取。
可选的,还可以基于低频词语与易错词语的发音进行相似发音词的召回,即首先对异常字进行词级别的提取,以得到召回词语;然后获取召回词语(或低频词语)对应的发音信息;并基于发音信息进行相似度召回,以得到相似词语;进而收集召回词语和相似词语,以得到对应于预设条件的异常词语,从而扩展了提取词语的范围,模拟了采用拼音输入法错误输入的场景。
可选的,在低频词确定的场景中,对于不同的语境,其划分为低频词的阈值可能不同,例如工作交流中,情绪化的词语使用较少,此时可以提高预设频率,即增强对于情绪化的词语的识别。具体的,首先获取待处理文本的语境信息;然后确定语境信息对应的预设频率;进而基于统计信息对训练语料词频小于预设频率的词语进行提取,以确定目标词语,从而提高低频词语的准确性。
在一种可能的场景中,提取词语的过程可以基于检错模块进行,检错模块将从文本中提取并召回易混淆的词。提取词语包括两类:检错模型判定可能有错的词和以及低频词。其中,对于可能有错的词,即为基于预训练好的检错模型对输入文本进行检错,检错模型将返回文本中每个字是错别字的概率,对于大于某个特定阈值的字,认为是可能有错的词,进行词级别的提取,并进一步召回这个词的同音词。而对于低频词,即为检测文本中是否包含低频词库中的词或者同音的词。
在另一种可能的场景中,对于输入文本:是什么让王家卫导演的电影啊飞正传重换青春。
检错模型判定可能有错的词:“重换”,召回同音词:“重焕”。
低频词库匹配:王家卫,阿飞正传(与文本中的“啊飞正传”拼音一致)提取词语:重换,重焕,王家卫,阿飞正传。
303、基于提取词语进行例句召回,以得到包含提取词语的多个参考例句。
本实施例中,参考例句即为提取词语的句子级别的扩展,该参考例句可以是通过例句库进行存储的,对于例句库的构建;可以获取针对于待处理文本的置信资源中的置信语料(例如教材、文献等);然后对置信语料进行句子级别的拆分,以得到参考例句;并对参考例句进行分词操作,以得到例句参考词;进而构建例句参考词与参考例句之间的索引,以得到例句库。
可以理解的是,例句库的原则是不包含错别字的句子。故采用置信语料,例如基于出版的书籍来构建例句库,假设出版书籍均经过了编辑的校对,所以错别字的比例非常低。
在一种可能的场景中,对于例句库的构建,可以首先收集约1T的书籍语料,再拆分成句子级别。例句库也会进行运营管理,人工实时向例句库中新增网络新词相关的例句。对于添加到例句库中的每个句子会进行分词,并构建“词”到“包含这个词的例句”的索引。如图5所示,图5为本申请实施例提供的另一种文本数据的处理方法的场景示意图;图中示出了“重焕”所对应的例句集合。
因此,基于例句库的构建,对于参考例句的确定过程,可以首先获取针对于待处理文本配置的例句库;然后在例句库中提取包含提取词语的召回例句;并将召回例句和待处理文本进行重叠度比对,以得到比对信息;进而基于比对信息获取重叠度满足重叠条件的多个参考例句,该重叠度即为召回例句和待处理文本中文本的相似程度,选择重叠度高的一个或多个例句作为参考例句。
可选的,在重叠度相同时,还可以进行文本场景的比较,即基于比对信息获取重叠度满足重叠条件的多个比对例句;然后获取比对例句对应的文本长度信息;并根据文本长度信息从比对例句中确定参考例句,例如在重叠字符相同,则选择长度最小的,从而减少后续数据处理量。
另外,考虑到文本长度还包含了标点符号的长度,由于标点符号一般没实意,故可以进行场景调整,即弱化标点符号的权重;首先获取比对例句中包含的符号元素;然后基于符号元素对文本长度信息进行调整,以得到调整长度信息;进而根据调整长度信息从比对例句中确定参考例句,从而提高例句中实意元素的比例。
在一种可能的场景中,上述参考例句的获取过程可以是通过例句召回模块实现的,即对于检错模块输出的每个词,从例句库中提取包含这个词的例句,并选择与输入文本上下文重叠字符最大的例句(如果重叠字符相同,则选择长度最小的),作为这个词的例句。
例如:
输入文本:是什么让王家卫导演的电影啊飞正传重换青春。
词:重焕;
召回例句:
让时代记忆重焕光彩(上下文重叠程度:1,句子长度:9);
如何让老店重焕青春?(上下文重叠程度:3,句子长度:10);
国际舞蹈重焕青春。(上下文重叠程度:4,句子长度:9);
所以对于词“重焕”最后选择的例句为:国际舞蹈重焕青春。
304、将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。
本实施例中,预训练语言模型采用bert模型,由于其采用双向转换器表征,因此bert模型能融合文本左右的上下文信息的深层双向语言表征,提高文本表征的准确性。
具体的,对于预训练语言模型的异常识别过程,如图6所示,图6为本申请实施例提供的另一种文本数据的处理方法的场景示意图;图中示出了对于待处理文本和参考例句采用分割输入的方式,即首先将待处理文本和参考例句之间配置分割标识,以得到输入文本;然后对输入文本按照待处理文本和参考例句配置类型标签,以得到标记文本;并将标记文本输入预训练语言模型,以使得预训练语言模型按照分割标识进行文本分割,并参考分割所得参考例句对待处理文本进行异常识别;进而对异常识别所得的异常信息进行处理。
可选的,由于例句与易错或低频词语具有对应性,在输入过程中,还可以对例句按照提取词语进行排序,即首先获取待处理文本对应的提取词语的顺序信息;然后按照顺序信息对参考例句进行排序;并对输入文本按照待处理文本和排序后的参考例句配置类型标签,以得到标记文本。从而提高了模型在参考过程中例句调用的便捷性,提高识别效率。
通过上述分割输入,可以将原始文本以及召回的例句一起送入预训练语言模型进行文本纠错。原始文本与例句之间用[SEP]分割,例句之前也用[SEP]进行分割。同时在输入层通过tokentype对文本与例句进行区分,文本部分的tokentype为0,例句部分的tokentype为1。在输出层,模型输出文本每个位置纠正后的字符。
在一种可能的场景中,上述预训练语言模型通过在线参考例句能实现正确纠正:啊飞正传修改为阿飞正传,重换修改为重焕;同时也能避免过纠,例如王家卫没有过纠。
结合上述实施例可知,通过获取输入的待处理文本;然后对待处理文本中满足预设条件的词语进行提取,以得到提取词语,该预设条件基于待处理文本中内容异常概率以及目标词语设定,该目标词语基于预训练语言模型中训练语料的词频设定,该预训练语言模型用于对待处理文本进行异常识别;并基于提取词语进行例句召回,以得到包含提取词语的多个参考例句;进而将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程,由于采用易错或低频的词语进行例句的实时召回,并基于召回的例句进行参考识别,提高了语言模型对于易错或低频词语的识别能力,提高了对于文本数据异常处理的准确性。
上述实施例介绍了基于预训练语言模型的异常识别过程,下面结合键盘输入文本的场景进行说明。请参阅图7,图7为本申请实施例提供的另一种文本数据的处理方法的流程图,本申请实施例至少包括以下步骤:
701、响应于目标对象在编辑窗口中输入待处理文本。
本实施例中,编辑窗口可以是智能终端中的键盘输入窗口,通过本实施例的文本数据处理方法可以为其配置文本纠错系统。文本纠错系统是一个重要且常用的NLP系统,拥有非常广泛的产品应用。例如搜索的query纠错,语音识别的文本纠错等。
702、基于预训练模型对待处理文本参考例句进行异常识别。
本实施例中,基于预训练模型对待处理文本参考例句进行异常识别的过程参考图3所示实施例的步骤301-304,此处不作赘述。
703、响应于对异常识别所得的异常信息的处理,确定校正文本。
本实施例中,校正文本即为异常识别所得的异常信息的正确文本,其符合文本表达中的语意或语法。
704、将校正文本与异常信息相关联,并将关联后的校正文本与异常信息在编辑窗口中的校正窗口进行展示。
本实施例中,通过校正文本与异常信息相关联,可以在编辑窗口中进行展示,如图8所述,图中示出了编辑窗口A1,以及校正窗口A2,实现了在“键盘”中将实时对用户的输入文本进行文本纠错。因为“键盘”为通用输入法,所以将面临用户输入的大量低频表达和易混淆词,本实施例提出的基于相似例句增强的文本纠错系统,将智能检测用户的句子中是否存在错误,尤其是低频表达和易混淆词,如果有错误会给出纠错建议并提醒用户,如果不存在错误则不会有纠错提醒,不打扰用户的正常输入
可选的,如果用户接受纠错提醒,则可以点击纠错提醒(校正窗口),从而进行一键校正,即响应于目标对象对于校正窗口的触发操作,将输入文本中的异常信息替换为校正文本,从而提高纠错系统对易混淆词的理解,减少过纠和漏纠,并提高了纠错效率。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图9,图9为本申请实施例提供的一种文本数据的处理装置的结构示意图,文本数据的处理装置900包括:
获取单元901,用于获取输入的待处理文本;
提取单元902,用于对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,所述预设条件基于所述待处理文本中内容异常概率以及目标词语设定,所述目标词语基于预训练语言模型中训练语料的词频设定,所述预训练语言模型用于对所述待处理文本进行异常识别;
处理单元903,用于基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句;
所述处理单元903,还用于将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。
可选的,在本申请一些可能的实现方式中,所述提取单元902,具体用于获取所述待处理文本对应的所述预训练语言模型所采用的训练语料;
所述提取单元902,具体用于对所述训练语料进行分词,以得到训练词语序列;
所述提取单元902,具体用于对所述训练词语序列进行词频统计,以得到统计信息;
所述提取单元902,具体用于基于所述统计信息对所述训练语料词频小于预设频率的词语进行提取,以确定对应于所述预设条件的所述目标词语;
所述提取单元902,具体用于将所述待处理文本与所述目标词语进行匹配,以得到匹配词语;
所述提取单元902,具体用于将所述待处理文本输入异常检测模型,以得到所述待处理文本中各个字的异常概率;
所述提取单元902,具体用于基于所述异常概率与异常阈值进行比对,以得到异常概率大于所述异常阈值的异常字;
所述提取单元902,具体用于对所述异常字进行词级别的提取,以得到对应于所述预设条件的异常词语;
所述提取单元902,具体用于收集所述匹配词语和所述异常词语,以得到所述提取词语。
可选的,在本申请一些可能的实现方式中,所述提取单元902,具体用于对所述异常字进行词级别的提取,以得到召回词语;
所述提取单元902,具体用于获取所述召回词语对应的发音信息;
所述提取单元902,具体用于基于所述发音信息进行相似度召回,以得到相似词语;
所述提取单元902,具体用于收集所述召回词语和所述相似词语,以得到对应于所述预设条件的异常词语。
可选的,在本申请一些可能的实现方式中,所述提取单元902,具体用于获取所述待处理文本的语境信息;
所述提取单元902,具体用于确定所述语境信息对应的预设频率;
所述提取单元902,具体用于基于所述统计信息对所述训练语料词频小于所述预设频率的词语进行提取,以确定所述目标词语。
可选的,在本申请一些可能的实现方式中,所述提取单元902,具体用于获取针对于所述待处理文本配置的例句库;
所述提取单元902,具体用于在所述例句库中提取包含所述提取词语的召回例句;
所述提取单元902,具体用于将所述召回例句和所述待处理文本进行重叠度比对,以得到比对信息;
所述提取单元902,具体用于基于所述比对信息获取重叠度满足重叠条件的多个所述参考例句。
可选的,在本申请一些可能的实现方式中,所述提取单元902,具体用于基于所述比对信息获取重叠度满足重叠条件的多个所述比对例句;
所述提取单元902,具体用于获取所述比对例句对应的文本长度信息;
所述提取单元902,具体用于根据所述文本长度信息从所述比对例句中确定所述参考例句。
可选的,在本申请一些可能的实现方式中,所述提取单元902,具体用于获取所述比对例句中包含的符号元素;
所述提取单元902,具体用于基于所述符号元素对所述文本长度信息进行调整,以得到调整长度信息;
所述提取单元902,具体用于根据所述调整长度信息从所述比对例句中确定所述参考例句。
可选的,在本申请一些可能的实现方式中,所述处理单元903,具体用于获取针对于所述待处理文本的置信资源中的置信语料;
所述处理单元903,具体用于对所述置信语料进行句子级别的拆分,以得到参考例句;
所述处理单元903,具体用于对所述参考例句进行分词操作,以得到例句参考词;
所述处理单元903,具体用于构建所述例句参考词与所述参考例句之间的索引,以得到所述例句库。
可选的,在本申请一些可能的实现方式中,所述处理单元903,具体用于将所述待处理文本和所述参考例句之间配置分割标识,以得到输入文本;
所述处理单元903,具体用于对所述输入文本按照所述待处理文本和所述参考例句配置类型标签,以得到标记文本;
所述处理单元903,具体用于将所述标记文本输入所述预训练语言模型,以使得所述预训练语言模型按照所述分割标识进行文本分割,并参考分割所得所述参考例句对所述待处理文本进行异常识别;
所述处理单元903,具体用于对异常识别所得的异常信息进行处理。
可选的,在本申请一些可能的实现方式中,所述处理单元903,具体用于获取所述待处理文本对应的提取词语的顺序信息;
所述处理单元903,具体用于按照所述顺序信息对所述参考例句进行排序;
所述处理单元903,具体用于对所述输入文本按照所述待处理文本和排序后的所述参考例句配置类型标签,以得到所述标记文本。
可选的,在本申请一些可能的实现方式中,所述处理单元903,具体用于响应于对异常识别所得的异常信息的处理,确定校正文本;
所述处理单元903,具体用于将所述校正文本与所述异常信息相关联,并将关联后的所述校正文本与所述异常信息在所述编辑窗口中的校正窗口进行展示。
可选的,在本申请一些可能的实现方式中,所述处理单元903,具体用于响应于所述目标对象对于所述校正窗口的触发操作,将所述输入文本中的异常信息替换为所述校正文本。
通过获取输入的待处理文本;然后对待处理文本中满足预设条件的词语进行提取,以得到提取词语,该预设条件基于待处理文本中内容异常概率以及目标词语设定,该目标词语基于预训练语言模型中训练语料的词频设定,该预训练语言模型用于对待处理文本进行异常识别;并基于提取词语进行例句召回,以得到包含提取词语的多个参考例句;进而将待处理文本和参考例句输入预训练语言模型,以使得预训练语言模型参考参考例句对待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。从而实现基于例句的异常文本处理过程,由于采用易错或低频的词语进行例句的实时召回,并基于召回的例句进行参考识别,提高了语言模型对于易错或低频词语的识别能力,提高了对于文本数据异常处理的准确性。
本申请实施例还提供了一种终端设备,如图10所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10,手机包括:射频(radio frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作,以及在触控面板1031上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体检测。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1080还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图11,图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图11所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有文本数据的处理指令,当其在计算机上运行时,使得计算机执行如前述图3至图8所示实施例描述的方法中文本数据的处理装置所执行的步骤。
本申请实施例中还提供一种包括文本数据的处理指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图8所示实施例描述的方法中文本数据的处理装置所执行的步骤。
本申请实施例还提供了一种文本数据的处理系统,所述文本数据的处理系统可以包含图9所描述实施例中的文本数据的处理装置,或图10所描述实施例中的终端设备,或者图11所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,文本数据的处理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种文本数据的处理方法,其特征在于,包括:
获取输入的待处理文本;
对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,所述预设条件基于所述待处理文本中内容异常概率以及目标词语设定,所述目标词语基于预训练语言模型中训练语料的词频设定,所述预训练语言模型用于对所述待处理文本进行异常识别;
基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句;
将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,包括:
获取所述待处理文本对应的所述预训练语言模型所采用的训练语料;
对所述训练语料进行分词,以得到训练词语序列;
对所述训练词语序列进行词频统计,以得到统计信息;
基于所述统计信息对所述训练语料词频小于预设频率的词语进行提取,以确定对应于所述预设条件的所述目标词语;
将所述待处理文本与所述目标词语进行匹配,以得到匹配词语;
将所述待处理文本输入异常检测模型,以得到所述待处理文本中各个字的异常概率;
基于所述异常概率与异常阈值进行比对,以得到异常概率大于所述异常阈值的异常字;
对所述异常字进行词级别的提取,以得到对应于所述预设条件的异常词语;
收集所述匹配词语和所述异常词语,以得到所述提取词语。
3.根据权利要求2所述的方法,其特征在于,所述对所述异常字进行词级别的提取,以得到对应于所述预设条件的异常词语,包括:
对所述异常字进行词级别的提取,以得到召回词语;
获取所述召回词语对应的发音信息;
基于所述发音信息进行相似度召回,以得到相似词语;
收集所述召回词语和所述相似词语,以得到对应于所述预设条件的异常词语。
4.根据权利要求2所述的方法,其特征在于,所述基于所述统计信息对所述训练语料词频小于预设频率的词语进行提取,以确定所述目标词语,包括:
获取所述待处理文本的语境信息;
确定所述语境信息对应的预设频率;
基于所述统计信息对所述训练语料词频小于所述预设频率的词语进行提取,以确定所述目标词语。
5.根据权利要求1所述的方法,其特征在于,所述基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句,包括:
获取针对于所述待处理文本配置的例句库;
在所述例句库中提取包含所述提取词语的召回例句;
将所述召回例句和所述待处理文本进行重叠度比对,以得到比对信息;
基于所述比对信息获取重叠度满足重叠条件的多个所述参考例句。
6.根据权利要求5所述的方法,其特征在于,所述基于所述比对信息获取重叠度满足重叠条件的多个所述参考例句,包括:
基于所述比对信息获取重叠度满足重叠条件的多个所述比对例句;
获取所述比对例句对应的文本长度信息;
根据所述文本长度信息从所述比对例句中确定所述参考例句。
7.根据权利要求6所述的方法,其特征在于,所述根据所述文本长度信息从所述比对例句中确定所述参考例句,包括:
获取所述比对例句中包含的符号元素;
基于所述符号元素对所述文本长度信息进行调整,以得到调整长度信息;
根据所述调整长度信息从所述比对例句中确定所述参考例句。
8.根据权利要求5所述的方法,其特征在于,所述获取针对于所述待处理文本配置的例句库,包括:
获取针对于所述待处理文本的置信资源中的置信语料;
对所述置信语料进行句子级别的拆分,以得到参考例句;
对所述参考例句进行分词操作,以得到例句参考词;
构建所述例句参考词与所述参考例句之间的索引,以得到所述例句库。
9.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理,包括:
将所述待处理文本和所述参考例句之间配置分割标识,以得到输入文本;
对所述输入文本按照所述待处理文本和所述参考例句配置类型标签,以得到标记文本;
将所述标记文本输入所述预训练语言模型,以使得所述预训练语言模型按照所述分割标识进行文本分割,并参考分割所得所述参考例句对所述待处理文本进行异常识别;
对异常识别所得的异常信息进行处理。
10.根据权利要求9所述的方法,其特征在于,所述对所述输入文本按照所述待处理文本和所述参考例句配置类型标签,以得到标记文本,包括:
获取所述待处理文本对应的提取词语的顺序信息;
按照所述顺序信息对所述参考例句进行排序;
对所述输入文本按照所述待处理文本和排序后的所述参考例句配置类型标签,以得到所述标记文本。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述待处理文本响应于目标对象在编辑窗口中输入,所述方法还包括:
响应于对异常识别所得的异常信息的处理,确定校正文本;
将所述校正文本与所述异常信息相关联,并将关联后的所述校正文本与所述异常信息在所述编辑窗口中的校正窗口进行展示。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
响应于所述目标对象对于所述校正窗口的触发操作,将所述输入文本中的异常信息替换为所述校正文本。
13.一种文本数据的处理装置,其特征在于,包括:
获取单元,用于获取输入的待处理文本;
提取单元,用于对所述待处理文本中满足预设条件的词语进行提取,以得到提取词语,所述预设条件基于所述待处理文本中内容异常概率以及目标词语设定,所述目标词语基于预训练语言模型中训练语料的词频设定,所述预训练语言模型用于对所述待处理文本进行异常识别;
处理单元,用于基于所述提取词语进行例句召回,以得到包含所述提取词语的多个参考例句;
所述处理单元,还用于将所述待处理文本和所述参考例句输入所述预训练语言模型,以使得所述预训练语言模型参考所述参考例句对所述待处理文本进行异常识别,并对异常识别所得的异常信息进行处理。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的文本数据的处理方法。
15.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至12任一项所述的文本数据的处理方法的步骤。
CN202310480024.0A 2023-04-27 2023-04-27 一种文本数据的处理方法、装置以及存储介质 Pending CN116955610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310480024.0A CN116955610A (zh) 2023-04-27 2023-04-27 一种文本数据的处理方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310480024.0A CN116955610A (zh) 2023-04-27 2023-04-27 一种文本数据的处理方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN116955610A true CN116955610A (zh) 2023-10-27

Family

ID=88448141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310480024.0A Pending CN116955610A (zh) 2023-04-27 2023-04-27 一种文本数据的处理方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN116955610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496977A (zh) * 2023-11-02 2024-02-02 北京景安云信科技有限公司 一种基于网关的数据脱敏方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496977A (zh) * 2023-11-02 2024-02-02 北京景安云信科技有限公司 一种基于网关的数据脱敏方法
CN117496977B (zh) * 2023-11-02 2024-05-03 北京景安云信科技有限公司 一种基于网关的数据脱敏方法

Similar Documents

Publication Publication Date Title
CN109145303B (zh) 命名实体识别方法、装置、介质以及设备
US11416681B2 (en) Method and apparatus for determining a reply statement to a statement based on a sum of a probability of the reply statement being output in response to the statement and a second probability in which the statement is output in response to the statement and further based on a terminator
CN110472251B (zh) 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN110162770B (zh) 一种词扩展方法、装置、设备及介质
CN110334360B (zh) 机器翻译方法及装置、电子设备及存储介质
CN108304846B (zh) 图像识别方法、装置及存储介质
CN110890093B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN111177371B (zh) 一种分类方法和相关装置
CN111160013B (zh) 文本纠错方法及装置
CN110069769B (zh) 应用标签生成方法、装置及存储设备
CN107155121B (zh) 语音控制文本的显示方法及装置
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN109815363A (zh) 歌词内容的生成方法、装置、终端及存储介质
CN110717026A (zh) 一种文本信息识别的方法、人机对话的方法及相关装置
CN116955610A (zh) 一种文本数据的处理方法、装置以及存储介质
CN104346052A (zh) 用于输入汉字的方法和装置
CN110781274A (zh) 一种问答对生成的方法与装置
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN112307198B (zh) 一种单文本的摘要确定方法和相关装置
CN112086094A (zh) 一种纠正发音的方法、终端设备及计算机可读存储介质
CN112036135B (zh) 一种文本处理方法和相关装置
CN113505596A (zh) 话题切换标记方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication