CN111027308A

CN111027308A - 文本生成方法、系统、移动终端及存储介质

Info

Publication number: CN111027308A
Application number: CN201911078340.5A
Authority: CN
Inventors: 张广学; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-04-17

Abstract

本发明适用于语音识别技术领域，提供了一种文本生成方法、系统、移动终端及存储介质，该方法包括：获取本地存储的词语数据库；根据预设词汇类型对所述词语数据库中的本地词汇进行遍历，并根据遍历结果对所述本地词汇进行类型标记；根据所述类型标记结果和预设句式结构以生成目标文本。本发明通过基于对所述本地词汇进行类型标记的设计、根据所述类型标记结果和预设句式结构以生成目标文本的设计，以达到自动生成文本的效果，即本发明实施例可以基于获取到的本地词汇和预设句式结果，自动进行文本生成操作，减少了文本收集和处理的时间，提高了文本的收集效率。

Description

文本生成方法、系统、移动终端及存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种文本生成方法、系统、移动终端及存储介质。

背景技术

语音识别技术已应用在生活的方方面面，大大便利了人们的日常交流和工作，但是，就一种通用性的语音识别模型来说，其需要收集各个领域的文本(对话文本、专业名词文本、刊登/正式资料)，以使应用在包括机器翻译、自动对话等应用场景中。由于文本收集和处理工作是一个浩大的工程，其将直接影响语音识别模型的识别效率，因此，针对文本收集的问题越来越受人们所重视。

现有的文本收集方法中，均是通过采用人工的方式进行收集和整理，并将收集整理后的文本输送至语音识别模型进行文本训练，以使训练后的模型能达到自动识别翻译的效果，但由于采用人工的方式进行文本收集和整理，使得文本收集效率低下、耗时长。

发明内容

本发明实施例的目的在于提供一种文本生成方法、系统、移动终端及存储介质，旨在解决现有的文本生成方法中，由于采用人工的方式进行文本收集和整理所导致的收集效率低下、耗时长的问题。

本发明实施例是这样实现的，一种文本生成方法，所述方法包括：

获取本地存储的词语数据库；

根据预设词汇类型对所述词语数据库中的本地词汇进行遍历，并根据遍历结果对所述本地词汇进行类型标记；

根据所述类型标记结果和预设句式结构以生成目标文本。

更进一步的，所述根据预设词汇类型对所述本地词汇进行遍历的步骤包括：

根据预设词语类型对所述本地词汇进行匹配，所述预设词语类型包括名词、动词、副词和形容词；

根据匹配结果对所述本地词汇进行词性标记。

更进一步的，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤包括：

根据常用表达句式对所述本地词汇进行文本构建，以生成所述目标文本，所述常用表达句式包括主谓结构句式、主谓宾结构句式、谓宾结构句式、主状谓结构句式、主状谓宾结构句式和状主谓宾结构句式。

当判断到所述本地词汇中存在专用词汇类型时，根据专用表达句式对所述本地词汇进行文本构建，以生成所述目标文本，所述专用词汇类型包括专有名词、专有动词、专有形容词和专有副词。

更进一步的，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤还包括：

判断所述本地词汇之间是否满足组合条件；

若是，则将对应所述本地词汇进行组合，以生成新词汇。

更进一步的，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤之前，所述方法还包括：

当判断到所述目标文本的字数大于字数阈值时，对所述目标文本进行文本切分，其中，所述文本切分的切分点为名词和/或形容词。

更进一步的，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤之后，所述方法还包括：

判断所述目标文本是否满足预设语义；

当判断到所述目标文本未满足所述预设语义时，将所述目标文本进行删除。

本发明实施例的另一目的在于提供一种文本生成系统，所述系统包括：

数据获取模块，用于获取本地存储的词语数据库；

词汇标记模块，用于根据预设词汇类型对所述词语数据库中的本地词汇进行遍历，并根据遍历结果对所述本地词汇进行类型标记；

文本生成模块，用于根据所述类型标记结果和预设句式结构以生成目标文本。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的文本生成方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的文本生成方法的步骤。

本发明实施例，通过基于对所述本地词汇进行类型标记的设计、根据所述类型标记结果和预设句式结构以生成目标文本的设计，以达到自动生成文本的效果，即本发明实施例可以基于获取到的本地词汇和预设句式结果，自动进行文本生成操作，减少了文本收集和处理的时间，提高了文本的收集效率。

附图说明

图1是本发明第一实施例提供的文本生成方法的流程图；

图2是本发明第二实施例提供的文本生成方法的流程图；

图3是本发明第三实施例提供的文本生成系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有的文本收集方法中，均是通过采用人工的方式进行收集和整理，并将收集整理后的文本输送至语音识别模型进行文本训练，但由于采用人工的方式进行文本收集和整理，使得文本收集效率低下、耗时长，因此，本发明实施例的目的在于提供一种基于本地词汇自动进行文本生成的方法，以提高文本收集效率。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的文本生成方法的流程图，包括步骤：

步骤S10，获取本地存储的词语数据库；

其中，该词语数据库可以基于任意搜索引擎的方式以进行搜索获取，该词语数据库中存储有多个词汇，该词汇可以任意单个的字或多个字所组成的词语，例如成语或俚语等；

优选的，该词语数据库可以采用预设间隔的方式持续进行更新，以持续进行新词语或流行词的增加，该流行词可基于网络应用的数量进行判定，例如“布吉岛”、“男默女泪”和“官宣”等词，流行词“布吉岛”对应的意思为“不知道”、流行词“男默女泪”对应的意思为“男生看了会沉默，女生看了会流泪”、流行词“官宣”对应的意思为“官方宣告”；

步骤S20，根据预设词汇类型对所述词语数据库中的本地词汇进行遍历，并根据遍历结果对所述本地词汇进行类型标记；

其中，该预设词语类型包括名词、动词、副词和形容词等，该类型标记可以采用词性标识的方式进行标记，该词性标识可以采用文字、数字、字母或颜色标记的方式进行区分；

步骤S30，根据所述类型标记结果和预设句式结构以生成目标文本；

其中，该预设句式结构包括常用表达句式结构和专用表达句式结构，该常用表达句式结构和专用表达句式结构中的词语构建规则均可根据需求进行设置；

具体的，由于语句中的组成可以包括：主语、谓语、宾语、状语、定语和补语等，不同结构顺序所组成的语句的语义可以相同也可以不相同，该步骤中，可根据需求针对“主语、谓语、宾语、状语、定语和补语”内的组成成分进行任意数量和任意顺序的搭配，以构建该常用表达句式结构和专用表达句式结构；

例如，该常用表达句式结构采用“主语-谓语-宾语”的顺序进行目标文本的构建，其中语句中的组成成分包括三个，分别为主语、谓语和宾语，且语句的构建顺序为主谓宾；

本实施例，通过基于对所述本地词汇进行类型标记的设计、根据所述类型标记结果和预设句式结构以生成目标文本的设计，以达到自动生成文本的效果，即本发明实施例可以基于获取到的本地词汇和预设句式结果，自动进行文本生成操作，减少了文本收集和处理的时间，提高了文本的收集效率。

实施例二

请参阅图2，是本发明第二实施例提供的文本生成方法的流程图，包括步骤：

步骤S11，获取本地存储的词语数据库；

步骤S21，根据预设词语类型对所述本地词汇进行匹配；

其中，所述预设词语类型包括名词、动词、副词和形容词；

步骤S31，根据匹配结果对所述本地词汇进行词性标记；

其中，该词性标记可以采用文字、数字、字母或颜色标记的方式进行区分，例如，当步骤中，可以采用数字“1”进行名词的标记、采用数字“2”进行动词的标记、采用数字“3”进行副词的标记、采用数字“4”进行形容词的标记，以针对不同类型的词汇进行区别标记，以方便后续文本生成过程中词汇的抓取；

步骤S41，判断所述本地词汇之间是否满足组合条件；

其中，该组合条件主要针对名词和形容词进行组合判断，由于名词之间所组成的新词汇可能具有特殊含义，因此，该步骤中通过对名词之间进行组合条件的判断，以判定是否存在需要进行名词组合的情况；

此外，由于形容词之间会存在并列的情况，因此，该步骤中通过对形容词之间进行组合条件的判断，以判定是否存在需要进行形容词组合的情况；

当步骤S41的判断结果为是时，执行步骤S51；

步骤S51，将对应所述本地词汇进行组合，以生成新词汇；

其中，通过该新词汇的生成，有效的提高了本地词汇的数量，使得后续生成的文本更多，例如生成的新词汇名词“今天和明天”、“我和你”，生成的新词汇形容词“枝繁叶茂的”、“令人舒适满意的”等；

步骤S61，根据常用表达句式和所述词性标记对所述本地词汇进行文本构建，以生成所述目标文本；

其中，所述常用表达句式包括主谓结构句式、主谓宾结构句式、谓宾结构句式、主状谓结构句式、主状谓宾结构句式和状主谓宾结构句式，优选的，所述常用表达句式可以根据需求针对“主语、谓语、宾语、状语、定语和补语”内的组成成分进行任意数量和任意顺序的搭配；

步骤S71，当判断到所述本地词汇中存在专用词汇类型时，根据专用表达句式和所述词性标记对所述本地词汇进行文本构建，以生成所述目标文本；

其中，所述专用词汇类型包括专有名词、专有动词、专有形容词和专有副词，该专用表达句式多用于对特殊领域中词语进行文本生成，例如医学领域、化学领域等，该专用表达句式还可以针对方言中的词语进行文本生成；

优选的，本实施例中，更进一步的，所述生成目标文本的步骤之后，所述方法还包括：

判断所述目标文本是否满足预设语义；

当判断到所述目标文本未满足所述预设语义时，将所述目标文本进行删除；

其中，该预设语义的判断可以基于用户的语义标记的方式进行判断，即当判断到该目标文本上携带用户的语义标记时，则将该目标文本进行删除，当目标文本上携带该用户的语义标记时，则判定该目标文本的语义未满足用户的需求；

步骤S81，当判断到所述目标文本的字数大于字数阈值时，对所述目标文本进行文本切分；

其中，所述文本切分的切分点为名词和/或形容词，由于用户语言沟通过程中，经常会出现一句话未表达完整，就转换至下一句的现象，因此，该步骤通过进行文本切分的设计，以使得到的目标文本满足各个语言沟通场景；

例如，得到的目标文本为“我今天去了北京南京好玩吗”，该字数阈值为10，则将该目标文本切分为“我今天去了北京，南京好玩吗”，前半句的语义是陈述用户今天去了北京，后半句的语义是用户问对方南京是否好玩；

优选的，该步骤中完成针对目标文本的切分后，将得到的所有目标文本作为训练文本用于构建语言模型，之后将语言模型和声学模型结合进行语音识别的应用；

本实施例中，还可以根据用户的需求主动进行词汇、词语类型和句式表达结构进行修改、增加和删除，以及时根据用户的反馈判断生成的文本是否满足用户的表达习惯、是否满足用户的语义，且通过实时更新词汇、流行词、并列名词、形容词、副词等的表达方式，以对应增加到文本切分规则中。

此外，本实施例中，针对生成的目标文本还包括文本矫正步骤，当判断到生成后的目标文本中不满足语义条件时，对该目标文本进行矫正，例如生成后的目标文本为：我爱背景天安门，此时，判断到背景与天安门之间的词语组合明显不满足语义，因此，将该背景矫正为北京；

具体的，文本矫正过程中，可以通过基于同音词查询的方式，将查询到的同音词与待组合的词语进行组词，并判断组词后的词语是否满足语义，当判断到组词后的词语满足语义时，将组词后的词语对待矫正的词语进行替换。

本实施例，通过基于对所述本地词汇进行类型标记的设计、根据所述类型标记结果和预设句式结构以生成目标文本的设计，以达到自动生成文本的效果，即本发明实施例可以基于获取到的本地词汇和预设句式结果，自动进行文本生成操作，减少了文本收集和处理的时间，提高了文本的收集效率，可短时生成大量可用的文本，且本实施例还可以根据表达习惯的趋势变化进行文本的改动，提高了文本收集的灵活性。

实施例三

请参阅图3，是本发明第三实施例提供的文本生成系统100的结构示意图，包括数据获取模块10、词汇标记模块11和文本生成模块12，其中：

数据获取模块10，用于获取本地存储的词语数据库，其中，该词语数据库可以基于任意搜索引擎的方式以进行搜索获取，该词语数据库中存储有多个词汇，该词汇可以任意单个的字或多个字所组成的词语，例如成语或俚语等。

词汇标记模块11，用于根据预设词汇类型对所述词语数据库中的本地词汇进行遍历，并根据遍历结果对所述本地词汇进行类型标记，其中，该预设词语类型包括名词、动词、副词和形容词等，该类型标记可以采用词性标识的方式进行标记，该词性标识可以采用文字、数字、字母或颜色标记的方式进行区分。

其中，所述词汇标记模块11还用于：根据预设词语类型对所述本地词汇进行匹配，所述预设词语类型包括名词、动词、副词和形容词；根据匹配结果对所述本地词汇进行词性标记。

文本生成模块12，用于根据所述类型标记结果和预设句式结构以生成目标文本，其中，该预设句式结构包括常用表达句式结构和专用表达句式结构，该常用表达句式结构和专用表达句式结构中的词语构建规则均可根据需求进行设置。

其中，所述文本生成模块12还用于：根据常用表达句式对所述本地词汇进行文本构建，以生成所述目标文本，所述常用表达句式包括主谓结构句式、主谓宾结构句式、谓宾结构句式、主状谓结构句式、主状谓宾结构句式和状主谓宾结构句式。

优选的，所述文本生成模块12还用于：当判断到所述本地词汇中存在专用词汇类型时，根据专用表达句式对所述本地词汇进行文本构建，以生成所述目标文本，所述专用词汇类型包括专有名词、专有动词、专有形容词和专有副词。

本实施例中，所述文本生成系统100还包括：

组词模块15，用于判断所述本地词汇之间是否满足组合条件；若是，则将对应所述本地词汇进行组合，以生成新词汇。

文本切分模块13，用于当判断到所述目标文本的字数大于字数阈值时，对所述目标文本进行文本切分，其中，所述文本切分的切分点为名词和/或形容词。

文本删除模块14，用于判断所述目标文本是否满足预设语义；当判断到所述目标文本未满足所述预设语义时，将所述目标文本进行删除。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的文本生成方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

获取本地存储的词语数据库；

根据所述类型标记结果和预设句式结构以生成目标文本。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的文本生成系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的文本生成方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标文本生成系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标文本生成系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

获取本地存储的词语数据库；

根据所述类型标记结果和预设句式结构以生成目标文本。

2.如权利要求1所述的文本生成方法，其特征在于，所述根据预设词汇类型对所述本地词汇进行遍历的步骤包括：

根据匹配结果对所述本地词汇进行词性标记。

3.如权利要求1所述的文本生成方法，其特征在于，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤包括：

4.如权利要求1所述的文本生成方法，其特征在于，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤包括：

5.如权利要求3或4所述的文本生成方法，其特征在于，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤之前，所述方法还包括：

判断所述本地词汇之间是否满足组合条件；

若是，则将对应所述本地词汇进行组合，以生成新词汇。

6.如权利要求3或4所述的文本生成方法，其特征在于，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤还包括：

7.如权利要求1所述的文本生成方法，其特征在于，所述根据所述类型标记结果和预设句式结构以生成目标文本的步骤之后，所述方法还包括：

判断所述目标文本是否满足预设语义；

8.一种文本生成系统，其特征在于，所述系统包括：

数据获取模块，用于获取本地存储的词语数据库；

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的文本生成方法。

10.一种存储介质，其特征在于，其存储有权利要求10所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的文本生成方法的步骤。