CN102184167A

CN102184167A - 一种文本数据处理方法和装置

Info

Publication number: CN102184167A
Application number: CN 201110138284
Authority: CN
Inventors: 陈志刚; 何婷婷; 胡国平; 王智国; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2011-05-25
Filing date: 2011-05-25
Publication date: 2011-09-14
Anticipated expiration: 2031-05-25
Also published as: CN102184167B

Abstract

本发明公开了一种文本数据处理方法和装置，其中，所述方法包括：获取文本数据的初始输入结果，所述初始输入结果中与数字字符相关的数据以文本形式存在；根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。通过本发明，可以实现将文本数据中与数字相关文本从汉字表述到数字字符的形式转换，提高文本数据处理的合理性。

Description

一种文本数据处理方法和装置

技术领域

本发明涉及识别处理技术领域，更具体地说，涉及一种文本数据处理方法和装置。

背景技术

在自然语言文本中，如汉语文本，存在相当数量的特殊符号串如英文字符、数字字符和符号字符等。例如：通过对100万字的人民日报语料进行统计，发现有超过70％的句子中包含特殊字符串，特殊字符串的总字符数超过6％，这说明特殊字符串在自然语言文本中广泛且大量存在。

特殊符号串在句子中所起的作用十分明显，如阿拉伯数字字符的引进极大地提高了人们通过视觉通道获取数量信息的效率，同时，因其形式简短而提高了用笔运算的效率。在连续语音识别领域，语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算，最终输出是汉字串，如：当用户说了“识别效率提升了百分之七十”这样一段语音后，如果现有识别系统对其完全识别正确，则显示识别结果为“识别效率提升了百分之七十”，然而用户更习惯看到的显示方式为“识别效率提升了70％”，因为纯汉字形式的识别结果不符合人们的阅读习惯。由于特殊符号广泛存在于自然语言文本中，如：数字(5,100)、摄氏度(℃)、百分号(％)等，则也形成了许多常用的固定格式，如对于数字来说，在何种情况下使用阿拉伯数字，国家标准有相关的规定，即：凡是可以使用阿拉伯数字而且又很得体的地方，均应使用阿拉伯数字。因此，对连续语音识别领域中，将汉字文本的识别结果进一步转换为人们视觉习惯的阿拉伯数字、符号形式十分必要。

然而，现有技术在自然语言文本中，研究者主要对如何将文本中的阿拉伯数字、符号等字符转换为标准的文本做出了大量的研究，而对于汉字文本转换为数字、符号等字符形式的研究较少。然而，从汉字文本到数字字符、符号的转换，与从数字字符、符号转换为汉字文本是完全不同的一个过程，所使用的方法具有本质的区别。从汉字文本到数字字符、符号的转换中，需要从多方面考察其合理性和可读性：首先需要判断是否对数字文本进行转换，比如对出现的“三四十年代”等表述概数概念的数字就应该保持其文字形式。其次还需要根据上下文语义等信息判断是否对其转换，如对于汉字文本：“扬州的二十四桥”和“已经过去了二十四个小时”，根据阅读习惯，前者不需要转换，而后者需要转换；此外，当语音输入结果的汉字文本为“百分之二十一”时，需要考虑对数字及相关特殊符号如何处理。而在从数字字符、符号转换为汉字文本时，则不会存在此类的问题。

由此可见，对于如何实现从汉字文本到数字字符、特殊符号的转换，是一个亟需解决的课题。需要一种转换方式，使得汉字文本中的任意数字串，如数字、小数、百分数、年月日、时间、比分、电话号码、门牌号、产品型号等，转换为符合日常表达习惯、便于阅读的表达方式。

发明内容

有鉴于此，本发明实施例提供一种文本数据处理方法和装置，以实现将文本数据中与数字相关文本从汉字表述到数字字符的形式转换，提高文本数据处理的合理性。

本发明实施例提供一种文本数据处理方法，包括：

获取文本数据的初始输入结果，所述初始输入结果中与数字字符相关的数据以文本形式存在；

根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。

进一步，所述方法还包括：

当所述初始输入结果中含有与数字字符相关的特殊符号，且所述特殊符号以文本形式存在时，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。

优选的，所述根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式，具体包括：

对所述输入结果进行分词处理，得到分词明确的文本词串；

预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式；

如果预判断确定不需要转换，则输出第一指示信息；根据所述第一指示信息，直接将所述文本词串中含有的与数字字符相应的数据文本输出；

如果预判断确定需要转换，则输出第二指示信息；根据所述第二指示信息合并相邻的与数字字符相应的文本词串，对合并后的文本词串进行数字类型标注；将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配，当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式，则根据预置的与所述数字字符类型相匹配的语料训练模型，将所述数字由文本形式转换为相应的符号形式。

优选的，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系，包括：

根据预置的与所述数字字符和特殊符号相匹配的转换规则，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整符号形式的特殊符号与数字字符的位置关系。

优选的，所述预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式，包括：

搜索所述数据中是否含有数值关键字；

如果不含有数值关键字，则继续判断所述数据是否为概数字串，如果是，则确定该数字字串为不需要转换；如果不是概数字串，则确定需要转换；

如果含有数值关键字，则确定所述数据为数值字串，将所述数值字串拆分为数字叶节点，如果拆分后获得的数字叶节点合法，则确定需要转换；否则，确定不需要转换。

一种文本数据处理装置，包括：

结果获取模块，用于获取文本数据的初始输入结果，所述初始输入结果中与数字字符相关的数据以文本形式存在；

第一形式转换模块，用于根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。

进一步，所述装置还包括：

第二形式转换模块，用于当所述初始输入结果中含有与数字字符相关的特殊符号，且所述特殊符号以文本形式存在时，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。

优选的，所述第一形式转换模块具体包括：

分词单元，用于对所述输入结果进行分词处理，得到分词明确的文本词串；

预判断单元，用于预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式；如果不需要转换，则输出第一指示信息，触发输出单元；如果需要转换，则输出第二指示信息，触发数字类型标注单元；

所述输出单元，用于根据所述第一指示信息，直接将所述文本词串中含有的与数字字符相应的文本输出；

所述数字类型标注单元，用于合并相邻的与数字字符相应的文本词串，对合并后的词串进行数字类型标注；

第一语料训练模型预置单元，用于预置与所述数字类型相匹配的语料训练模型；

第一转换单元，用于将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配，当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式，则根据预置的与所述数字字符类型相匹配的语料训练模型，将所述数字由文本形式转换为相应的符号形式。

优选的，所述第二形式转换模块具体包括：

第二语料训练模型预置单元，用于预置与所述数字字符和特殊符号相匹配的转换规则；

第二转换单元，用于根据与所述数字字符和特殊符号相匹配的转换规则，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整符号形式的特殊符号与数字字符的位置关系。

优选的，所述预判断单元具体包括：

搜索子单元，用于搜索所述数据中是否含有数值关键字；

转换确定子单元，用于如果不含有数值关键字，则继续判断所述数据是否为概数字串，如果是，则确定该数字字串为不需要转换；如果不是概数字串，则确定需要转换；如果含有数值关键字，则确定所述数据为数值字串，将所述数值字串拆分为数字叶节点，如果拆分后获得的数字叶节点合法，则确定需要转换；否则，确定不需要转换。

同现有技术相比，本发明提供的技术方案根据预置的匹配规则，对文本数据的初始输入结果进行检测，将所述输入结果中某些与数字字符相应的文本转换为数字字符形式，从而实现对文本数字字符的智能转换，将文本数据的输入结果转换为更适合用户阅读习惯的形式，提高文本数据处理的合理性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本数据处理方法流程示意图；

图2为本发明实施例提供的另一种文本数据处理方法流程示意图；

图3为图1中根据预置的匹配规则，将所述输入结果中某些与数字字符相应的文本转换为数字字符形式的实现方式流程示意图；

图4为图3中步骤302的实现方式流程示意图；

图5为本发明实施例提供的数字叶节点拆分示意图；

图6为本发明实施例提供的对每个数字叶节点进行分析的实现方式流程示意图；

图7为本发明实施例提供的一种文本数据处理装置的结构示意图；

图8为本发明实施例提供的又一种文本数据处理装置的结构示意图；

图9为图7中第一形式转换模块的结构示意图；

图10为图8中第二形式转换模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以本案在语音识别系统中应用为例，语音信号被检测到后送入连续语音识别装置中以获得识别结果。由于目前连续语音识别都是基于模型识别，语音信号首先被映射到声韵母或其他音素相关模型，再根据语言模型转成中英文等字符，因此连续语音识别装置的输出就是可能包括中文字符、英文字符等符号的字符串。显然直接的识别结果中存在汉字描述的各种数字串，如数字、年月日、时间、比分、电话号码、门牌号、产品型号等，其形式并不符合用户习惯的阅读理解方式。

为了解决上述问题，相应地，本发明实施例提供了一种文本数据处理方法，相应地，还提供了一种文本数据处理装置，以实现文本数据从文本到数字字符的形式转换，提高文本数据处理的合理性。

首先对本发明提供的一种文本数据处理方法进行说明，参照图1所示，所述方法包括：

步骤101、获取文本数据的初始输入结果，所述初始输入结果中与数字字符相关的数据以文本形式存在；

本发明实施例中，在对文本数据的初始输入结果中，与数字字符相关的数据是以文本形式存在的；

步骤102、根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。

该步骤中，根据预置的匹配规则，将所述输入结果中某些与数字字符相应的文本转换为数字字符形式，将文本数据处理结果转换为更符合用户阅读习惯的形式，例如：将文本表达形式的数字、年月日、时间、比分、电话号码、门牌号、产品型号等转换为相应的数字字符形式，从而提高文本数据处理的合理性。

其中，所述匹配规则是预置的从海量训练语料中总结出的满足日常阅读习惯的数字转换条件及对应操作。海量语料提供了符合阅读习惯的数字相关文本表达形式，这些语料作为训练样本，可以综合得到对应于不同数字应用应该采取何种表达方式。通过将输入结果和预置模型规则匹配，用以确定是否需要将所述输入结果中某些与数字字符相应的文本转换为数字字符形式。

通过上述实施例，根据预置的匹配规则，对文本数据的初始输入结果进行检测，将所述输入结果中某些与数字字符相应的文本转换为数字字符形式，从而实现对文本数字字符的智能转换，将文本数据的输入结果转换为更适合用户阅读习惯的形式，提高文本数据处理的合理性。

通常，当文本数据初始输入结果中仅存在与数字字符相应的文本时，可根据预置的匹配规则，直接将输入结果中不符合通常阅读习惯的与数字字符相应的文本转换为数字字符形式。然而，当输入结果中不仅存在与数字字符相应的文本，还存在与数字字符相关的特殊符号的文本时，则需要结合数字字符和特殊符号进行转换判断。由此，在本发明的另一个实施例中，如图2所示，还包括以下步骤：

步骤103、当所述输入结果中含有与数字字符相关的特殊符号，且所述特殊符号以文本形式存在时，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。

通过本发明实施例，对于例如“有一支股票涨了百分之二十三点一五”这一语音数据的识别结果，通过对数字及“百分之”、“点”等相关文本的转换，将最终的识别结果转换为更符合日常阅读习惯的显示方式“有一支股票涨了23.15％”。

具体实施时，对于数字字符文本以及与该数字字符相关的特殊符号文本进行形式转换，是根据预置的与所述数字字符和特殊符号相匹配的语料训练模型进行。

为了便于对本发明实施例的理解，下面通过具体实施方式对技术方案细节进行详细描述。

上述实施例中，如图3所示，所述根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式的实现方式具体包括：

步骤301、对所述输入结果进行分词处理，得到分词明确的文本词串；

通过执行预定的分词算法，将原始的没有词语标识符的文本切分成具有明确分词的文本词串。目前自然语言处理领域中对分词算法研究较多，本案采用了传统常用的前后向最大分词算法，对于原例句“有一支股票涨了百分之二十三点一五”，执行分词操作后得到“有/一/支/股票/涨/了/百分之/二/十/三/点/一/五”的词串。

步骤302、预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式；如果预判断确定不需要转换，则继续步骤303；如果预判断确定需要转换，则继续步骤305；

语音识别可能存在识别错误，如“三百六十”可能被识别成了“三八六十”。若按照规整要求对其做数字形式转换，“三八六十”无论做何种形式转换都是错误的。另外，除了识别错误的数字文本，识别没有错误但不能进行形式转换的情况也有很多，比如“三四十年代”、“五六十岁”、“三四天”，如果强行进行形式转换，会导致转换结果与原来的意思不一致。显然系统需要有一个验证机制，用于对数字字符形式转换后字串的合理性进行预判断，便于将那些强行形式转换后导致结果不合法的文本词串保留原样输出。在具体实施时，采用基于规则匹配的方法，通过预置例外规则的方式剔除可能的形式转换错误情形。

步骤303、输出第一指示信息；

该步骤中，所述第一指示信息用于指示，根据预判断结果，确定不需要转换。

步骤304、直接将所述文本词串中含有的与数字字符相应的文本输出；

根据所述第一指示信息，可以直接将所述文本词串中含有的与数字字符相应的数据文本输出，实现将那些由于识别错误、进而强行形式转换后导致结果不合法的文本词串保留原样输出。

步骤305、输出第二指示信息；

该步骤中，所述第二指示信息用于指示，根据预判断结果，确定需要转换。

根据所述第二指示信息，后续转换过程中，合并相邻的与数字字符相应的文本词串，对合并后的文本词串进行数字类型标注；将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配，当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式，则根据预置的与所述数字字符类型相匹配的语料训练模型，将所述数字由文本形式转换为相应的符号形式。

步骤306、合并相邻的与数字字符相应的文本词串，对合并后的词串进行数字类型标注；

根据所述第二指示信息，开始后续转换过程。同一个数字串在自然语言文本中往往对应着不同表达形式，如数字串“2300”可以分别用文字“二三零零”或“二千三”表示。为了简化后续对文本单元的数字化转换，该步骤中对与数字字符相应的文本词串进行数字类型标注，将与数字字符相应的文本词串按功能分别标注为数字串方式C(如“二三零零二六”)、数值方式S(如“二十三”)以及单个文本数字O等类型，即定义数字串类型集合为{C、S、O}。

下面以分词字串“有/一/支/股票/涨/了/百分之/二/十/三/点/一/五”为例具体说明进行数字类型标注的具体执行流程：

首先，提取文本单元中的数字单元：“有/一(O)/支/股票/涨/了/百分之/二(O)/十(O)/三(O)/点/一(O)/五(O)”；

然后，合并相邻的数字单元，并根据合并后数字串中是否出现“十”、“百”、“千”等具有数值意义的字符来判定字串的数字类型，分别标注“C”，“S”以及“O”，如：“有/一(O)/支/股票/涨/了/百分之/二十三(S)/点/一五(C)”；

最后，将字符串单元中阿拉伯数字串的位数作为该数字串数字类型的后缀，增加数字类型的区分度，如“有/一(O1)/支/股票/涨/了/百分之/二十三(S2)/点/一五(C2)”。

步骤307、将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配，根据匹配结果确定是否需要将所述合并后的词串转换为数字字符形式；

当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式，则根据预置的与所述数字字符类型相匹配的语料训练模型，将所述数字由文本形式转换为相应的符号形式。

通过提取数字字符的特征，如：上下文中文本词串的内容或数字类型，再结合统计训练方法判定数字字符相应的文本是否需要进行形式转换。

常用的统计模型有统计Ngram语言模型、最大熵模型、条件随机场模型等，本发明实施例采用最大熵模型，通过海量未标注文本语料训练模型自动训练，对数字字符相应的文本进行相应的形式转换。假设给定数字字符文本为U，定义形式转换与否判定为m＝argmax m:P(m|c(U))，其中m表示形式转换与否动作，定义为m＝{转换、不转换}，c(U)表示U的上下文，P(m|c(U))为似然度概率。

海量文本语料中数字串的表现形式丰富多彩，即使在相同上下文中也会有不同的表现形式。如：字串“三十个”和“30个”，这里数字“30”在和字符“个”组词中就分别有文字“三十”和阿拉伯数字“30”两种不同的形式。一般情况下，如果没有其他人工先验知识的情况下，若语料中“30个”出现次数要比“三十个”出现次数多，基本可以认为前者更符合人们的阅读习惯。相应地，对于文本单元“三十”，由于P(转换|c(三十))要比P(不转换|c(三十))大，其中，c(三十)表示数字“三十”相关的上下文。因此，需要对数字文本“三十”进行形式转换。

以语料训练模型“十七孔桥长150米”，“黄山路616号1001室”为例，对上述两个语料训练模型进行分词处理得到分词结果“十七/孔/桥/长/150/米”和“黄山/路/616/号/1001/室”；用数据类型标注字串中的数字串，这里的数据类型直接用D(表示数值)加阿拉伯数字串表示的数字串位数来表示：“十七(D2)/孔/桥/长/150(D3)/米”，“黄山/路/616(D3)/号/1001(D4)/室”；对训练样本作标注，通过文本单元的属性(阿拉伯数字形式或是数字文本形式)，如果文本单元是阿拉伯数字形式，则标注成“转换”，表示测试样本需要进行形式转换，即将数字文本转换为数字字符形式；否则，如果文本单元是数字文本形式，则标注成“不转换”，即不需要将数字文本转换为数字字符形式。对“十七(D2)/孔/桥/长/150(D3)/米”，“黄山/路/616(D3)/号/1001(D4)/室”两个训练样本的分析得到如下表所示的文本单元属性：

由此，根据海量语料中提取的句子文本单元属性及其对应的转化指示，可以得到一系列的匹配训练模型规则。将测试样本与训练模型规则匹配，利用最大熵模型训练最终确定是否需要进行词串的形式转换。

需要说明的是，上述实施例中，如图4所示，所述步骤302中“所述预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式”的具体实现方式为：

步骤401、搜索所述文本词串中与数字字符相应的文本中是否含有数值关键字；如果含有数值关键字，则确定所述数字串文本为数值字串，继续步骤402；如果不含有数值关键字，则继续步骤403；

该步骤中，搜索输入数字串文本中的数值关键字，如“亿”、“万”、“千”、“百”、“十”等与数值相关的关键字。

步骤402、将所述数值字串拆分为数字叶节点，；

根据所述数值关键字，将所述文本词串中与数字字符相应的文本递归迭代划分为独立的数字叶节点；如图5所示，例如：对于数字串文本“五十一亿八千六百零八万三千”，根据“亿”、“万”、“千”、“百”、“十”这些数值关键字，将数字串文本拆分为包括“五”、“一”、“八”、“六”、“零八”以及“三”的数字叶节点；

该步骤之后，继续执行步骤406；

步骤403、继续判断所述与数字字符相应的文本是否为概数字串，如果是概数字串，则继续步骤404；如果不是概数字串，则继续步骤405；

具体实施时，如果该文本字串同时满足以下条件，则确定该文本字串为概数字串：

1、字串长度为2且为连续数字；

2、字串下文字词的属性为量词。

步骤404、确定为不需要所述转换；

当确定文本字串为概数字串时，则该概数字串可以不进行形式转换，即不需将文本形式转换为数字字符形式。

步骤405、确定需要所述转换；

当确定文本字串不是概数字串，且不是数值字串时，则确定可直接将该文本字串转换为数字字符形式。

步骤406、进行所述数字叶节点拆分合法性判断，如果合法，则继续步骤407；否则，继续步骤408；

步骤407、确定需要所述转换；

步骤408、确定不需要所述转换；

还需另行说明的是，上述步骤406中对所述数字叶节点拆分的合法性判断，如图6所示，具体包括以下内容：

601、初始化，设置考察的数字叶节点序列号i＝1；

602、判断该节点字串长度是否大于2，若是，则认为该数字叶节点设置不合理，转入607；若否，则继续603；

603、判断该数字叶节点字串中是否含有“幺”字符，若是，则认为该数字叶节点设置不合理，转入607；若否，则继续604；

604、判断该数字叶节点字串长度是否为2且不以零开头，若是，则认为该数字叶节点设置不合理，转入607；若否，则继续605；

605、判断当前考察的数字叶节点序列号是否小于数字页节点总数，若是，则继续606；否则，转入608；

606、设置考察的数字叶节点序列号为i+1，转入602；

607、确定数字叶节点设置不合理，跳出循环，转入609；

608、确定数字叶节点设置合理；

609、输出数字叶节点设置是否合理的结果指示。

当数字叶节点设置合理的条件下，便可以将数值字串中各数字叶节点对应的文本转换为相应的数字字符，并且，结合所述数值关键字，将各数字叶节点组合成完整的数字字符串。从而，输出确定需要形式转换的判定指示信息。

通过上述预判断操作，能够更加准确和有效地判断出是否需要进行形式转换，因此，能够更加正确地进行转换，有效地防止转换中出现的错误。

下面简单介绍当输入结果中含有与数字字符相关的特殊符号的文本时，该文本与语料训练模型匹配的实现算法。首先，系统规则库中预置多条抽象化的数字串文本单元序列即规则条件，如规则条件U1(“百分之”)U2(数字类型为S或O)U3(“点”)U4(数字类型为C或O)，这里的U1，U2...等分别是文本单元序号，其括号中的内容分别是文本信息或数字类型。相应于规则库中的每条规则条件，系统同时预置了其对应的形式转换策略，用于指导与数字字符相应的文本单元序列到阿拉伯数字、相关符号的形式转换，以及文本单元序列的顺序调整操作。例如：对于规则U1(“百分之”)U2(数字类型为S或O)U3(“点”)U4(数字类型为C或O)，其对应的形式转换策略为U2(转成数字)U3(“.”)U4(转成数字)U1(“％”)。由此，对应“有一支股票涨了百分之二十三点一五”这一语音数据的输入结果，按照语料训练模型，将最终的输入结果转换为更符合日常阅读习惯的显示方式“有一支股票涨了23.15％”。

可见，通过本发明实施例，通过对数字文本上下文的语义分析，智能判断是否对数字文本做数字字符的形式转换；此外，支持百分之、摄氏度、几点几分等特殊符号文本的转换，涵盖了较广的转换范围。

在实际应用中，本发明实施例可以应用在语音识别系统中，对根据语音信号识别出的文本数据进行处理，使得语音输入结果更符合用户阅读习惯的形式，提高文本数据处理的合理性。需要强调的是，该方案具有普适性，可以应用在任何需要对文字数据后处理优化应用中。

相应于上述方法实施例，本发明实施例还提供了一种文本数据处理装置，如图7所示，该装置具体包括：

结果获取模块701，用于获取文本数据的初始输入结果，所述初始输入结果中与数字字符相关的数据以文本形式存在；

第一形式转换模块702，用于根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。

该装置中，根据第一形式转换模块中预置的匹配规则，将所述输入结果中某些与数字字符相应的文本转换为数字字符形式，将文本数据处理结果转换为更符合用户阅读习惯的形式，例如：将文本表达形式的数字、年月日、时间、比分、电话号码、门牌号、产品型号等转换为相应的数字字符形式，从而提高文本数据处理的正确率。

通常，当文本数据处理结果中仅存在与数字字符相应的文本时，可根据预置的匹配规则，直接将输入结果中不符合通常阅读习惯的与数字字符相应的文本转换为数字字符形式。然而，当输入结果中不仅存在与数字字符相应的文本，还存在与数字字符相关的特殊符号的文本时，则需要结合数字字符和特殊符号进行转换判断。由此，在本发明的另一个装置实施例中，如图8所示，还包括：

第二形式转换模块703，用于当所述初始输入结果中含有与数字字符相关的特殊符号，且所述特殊符号以文本形式存在时，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。

通过该装置实施例，对于例如“有一支股票涨了百分之二十三点一五”这一语音数据的输入结果，通过对数字及“百分之”、“点”等相关文本的转换，将最终的输入结果转换为更符合日常阅读习惯的显示方式“有一支股票涨了23.15％”。

具体实施时，如图9所示，所述第一形式转换模块702具体包括：

分词单元7021，用于对所述输入结果进行分词处理，得到分词明确的文本词串；

预判断单元7022，用于预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式；如果不需要转换，则输出第一指示信息，触发输出单元7023；如果需要转换，则输出第二指示信息，触发数字类型标注单元7025；

所述输出单元7023，用于根据所述第一指示信息，直接将所述文本词串中含有的与数字字符相应的文本输出；

第一语料训练模型预置单元7024，用于预置与所述数字类型相匹配的语料训练模型；

数字类型标注单元7025，用于合并相邻的与数字字符相应的文本词串，对合并后的词串进行数字类型标注；

第一转换单元7026，用于将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配，当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式，则根据预置的与所述数字字符类型相匹配的语料训练模型，将所述数字由文本形式转换为相应的符号形式。

其中，所述预判断单元具体可以包括：

搜索子单元，用于搜索所述数据中是否含有数值关键字；

此外，如图10所示，所述第二形式转换模块703具体包括：

第二语料训练模型预置单元7031，用于预置与所述数字字符和特殊符号相匹配的转换规则；

第二转换单元7032，用于根据与所述数字字符和特殊符号相匹配的转换规则，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整符号形式的特殊符号与数字字符的位置关系。

对于装置实施例而言，由于其基本相应于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明实施例的精神或范围的情况下，在其它实施例中实现。因此，本发明实施例将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本数据处理方法，其特征在于，包括：

2.根据权利要求1所述的文本数据处理方法，其特征在于，还包括：

3.根据权利要求1所述的文本数据处理方法，其特征在于，所述根据预置的匹配规则，将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式，具体包括：

对所述输入结果进行分词处理，得到分词明确的文本词串；

4.根据权利要求2所述的文本数据处理方法，其特征在于，将所述特殊符号由文本形式转换为相应的符号形式，并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系，包括：

5.根据权利要求3所述的文本数据处理方法，其特征在于，所述预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式，包括：

搜索所述数据中是否含有数值关键字；

6.一种文本数据处理装置，其特征在于，包括：

7.根据权利要求6所述的文本数据处理装置，其特征在于，还包括：

8.根据权利要求6所述的文本数据处理装置，其特征在于，所述第一形式转换模块具体包括：

9.根据权利要求7所述的文本数据处理装置，其特征在于，所述第二形式转换模块具体包括：

10.根据权利要求8所述的文本数据处理装置，其特征在于，所述预判断单元具体包括：

搜索子单元，用于搜索所述数据中是否含有数值关键字；