CN114818663A

CN114818663A - 一种分级的智能拼音与文字匹配方法

Info

Publication number: CN114818663A
Application number: CN202210298428.3A
Authority: CN
Inventors: 胡劲松; 冯思铭; 李文亮; 贺映玲
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-07-29
Anticipated expiration: 2042-03-25
Also published as: CN114818663B

Abstract

本发明公开了一种分级的智能拼音与文字匹配方法，用于提高撰写专业领域文本时的输入效率，减少错误。在输入文字时，除了通用的词汇外，还涉及专用词汇，如本地/本机专用词汇、专业领域的专业词汇以及本地专业部门特有的场所名、特定编号的设备名乃至人名等，因为同音字的广泛存在，常用的拼音输入法匹配这些文字的错误率比较高，需要频繁地做选择，导致输入效率低下，本发明提出差频原理，自动建立本地/本机专用词库，以差频专用词汇为中心匹配拼音与文字，采用任意位置转换机制，通过这些步骤，可以减少频繁选择同音词组的麻烦，提高输入效率。

Description

一种分级的智能拼音与文字匹配方法

技术领域

本发明涉及拼音与文字匹配的技术领域，尤其是指一种分级的智能拼音与文字匹配方法。

背景技术

拼音输入法简单易学，无需记忆字根，因而被人们广泛使用，尽管经过人们的不断改进，有各种拼音输入法的版本，但是因为大量同音字和词的存在，同样的拼音对应多个不同的汉字或词，在输入的时候，人们不得不频繁的通过数字键来选择备选词，因而极大地降低了输入速度，增加了错误率，尤其是，当输入专业文章或行业部门的本地文档时，通常涉及大量的专业术语以及各个行业部门特有的工作场所名、本地化术语、简称、本地俗称、有本地特征的设备名乃至本部门的人名，由于语言中大量同音词的存在，目前的拼音输入法往往把这些平时比较生僻的专用词汇的拼音匹配成其它常见的普通词汇，因而错误率比较高，难以满足专业或行业部门的需要。造成以上问题的主要原因在于：目前的拼音输入法是基于频率优先匹配，拼音会优先匹配那些平时出现频率较高的通用词汇、热门词汇。

有些文献提出加入专用的词汇，但还是有3个问题：

1、本地专业或行业部门的专用词汇不会在通用的词汇库中出现，需要各个地区的行业部门根据自己部门的需要手工建立，要在大量本地文本资料中逐个筛选专用词汇，此外，这些专用词汇还要不断更新、替换和统计刷新频率，费时费力。

2、即使在词库中加入专用词汇和通用的热门词汇合一起，专用词汇出现频率较低，在输入拼音相同的情况下，也只能排在热门词汇后充当备选，仍然需要手动选择数字。

3、目前的匹配都是以一个拼音串的首字母为起点，向后逐个开始转换为文字，因为输入失误和同音字的存在，后面重要的专用词汇的某些拼音可能和前面的拼音提前组合转换成了其它词组，导致错误。例如本来要XXX线路的刀闸合闸，结果变成了其它线路合闸，造成严重的后果。相反，普通词汇的错误相对可以接受。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种分级的智能拼音与文字匹配方法，提高拼音输入法的准确率，减少输入数字选择备选词的次数，可用较小的代价匹配专业领域中的专用词汇，尤其是本地专业部门的专用词汇，例如专业术语以及各个行业部门特有的工作场所名、本地化术语、简称、本地俗称、有本地特征的设备名乃至本部门的人名。

为实现上述目的，本发明所提供的技术方案为：一种分级的智能拼音与文字匹配方法，包括：

专用模式选择：选择是否进入专用词汇输入模式，若是，则进入级别优先匹配，若不是，就直接将输入的拼音与词汇的拼音进行匹配，出现的频率高的词汇优先匹配，最后余下的拼音与单个中文字匹配；其中，所述词汇指中文词组，一个中文词组包括至少2个中文字，所述专用词汇包括本地专用词汇和专业术语，所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇；

级别优先匹配：设输入的拼音串名为A，A为一个拼音句子，对应着一个文字句子，A变成文字的过程中，优先与差频专用词库的一级子库词汇的拼音匹配，匹配成功则A的部分拼音变成文字，匹配不成功再考虑下一级，直到最后一级子库，其中，所述匹配即求A的一部分拼音和某个中文词组或字的正确拼音之间的相似度，也简称为拼音与文字或词汇的匹配；所述差频专用词库由分级的专用词汇及其拼音组成，词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低，同级别的专用词汇构成一个子库，最高级子库为一级子库，以下依次为二级到最低级子库；

频率优先匹配：在级别优先匹配完成之后，对A余下的拼音与词汇的拼音进行匹配，出现的频率高的词汇优先匹配，最后余下的拼音与单个中文字匹配。

进一步，所述差频专用词库的构建，包括以下步骤：

S1、采集专用资料的词汇，包括本机和本地局域网的专业文件、本部门的专业文件，并搜索网络上的相关专业学术文章；

S2、对上一步所采集的专用资料的词汇进行清理、分词操作，获得词汇列表，接着对词汇列表进行词频统计，得到专用词频词典；其中，词频＝该词重复的次数×该词长度/全部资料总字数，所述专用词频词典包含了专用资料中出现的全部词汇及其词频；

S3、采集通用资料的词汇，包括人民日报语料库、新浪、搜狐、网易三大网站的新闻，进行词汇词频统计，得到通用词频词典，包含了通用资料中出现的全部词汇及其词频；

S4、对专用词频词典的每个词汇做差频操作，得到差频专用词库，所述差频操作即：

差频值一个词汇的专用词频－k×其通用词频，此处k为固定的系数，专用词频和通用词频分别由专用词频词典和通用词频词典得到，词典中查不到的词汇，其词频计为0；

S5、将差频值排名前25％的词汇存入一级子库，26％至50％的词汇存入二级子库，51％至75％的词汇存入三级子库，其它大于0的词汇存入四级，差频值小于或等于0的舍去；

S6、为差频专用词库中每一个词汇关联其对应的拼音，最终形成面向专业领域的差频专用词库；所述差频专用词库由一、二、三、四级子库组成，差频值越高的词汇在子库排队越前面。

进一步，所述级别优先匹配的步骤包括：

逆向取词：在一级子库内未匹配过的词汇中取差频值最高词汇的拼音，设其名称为B，如果一级子库中的词汇都已经进行过匹配操作则顺延到下一级子库；

任意位置转换文字：在A中搜索类似于B的子串C，如果B与C匹配成功，则将C转换为相应的中文词组；如果A中有多个类似于B的子串，则都要重复上面操作；所述子串C能够位于A的任意位置。

进一步，还包括：当输入多于5个句子时，则在级别优先匹配之前先进行主题词确定、主题词队列排序和主题词匹配，具体如下：

主题词确定：统计前文重复的词汇及其重复次数；如果该重复的词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去；

主题词队列排序：设从开始本次拼音输入启动至当前待识句子为止，已有n个拼音串被转换为n个文字句子，当前待转换拼音串编号为第n+1句，则一个重复词汇的主题值为：

式中，i、j为该词汇在第i、j句时重复，省略号表示其它重复句子，i，j＜n；G为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数；计算前n个句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列；

主题词匹配：将A与主题词队列进行匹配，从队列第一个主题词汇开始，匹配成功则A的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词。

进一步，所述匹配包括如下步骤：

计算字母编辑距离：指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操作次数；所述正确的拼音单元指该单元对应某个汉字的拼音，许可的编辑操作包括：插入一个字母、删除一个字母、将一个字母替换成另一个、两个字母交换位置；

计算音素编辑距离：指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数；所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个，一次模糊音之间的替换只算0.5次；

计算匹配值＝字母编辑距离+音素编辑距离；

如果匹配的是专用词库的词汇，则当匹配值小于给定阈值时，给出匹配成功信号，否则给出匹配失败信号，输出匹配值；

如果匹配的是通用词库的词汇，仅输出匹配值。

进一步，还包括专用模式选择自动转换，包括如下步骤：

S1、计算用户纠正值：如果当前输入拼音时弹出的首选词汇为通用词汇，用户纠正为专用词汇，则本次用户纠正值Z＝Z+5－G；如果输入拼音时弹出的首选词汇为专用词汇，用户纠正为通用词汇，则本次用户值Z＝Z－5+G；其中，G为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数；

S2、如用户纠正值大于设定值，则当前模式转为专用模式，如用户纠正值小于设定值的负数，则当前模式转为通用模式。

本发明与现有技术相比，具有如下优点与有益效果：

1、根据本发明提供的一种分级的智能拼音与文字匹配方法，系统可自动地区分通用词汇和专业领域专用词汇，尤其是那些本地部门的专用词汇，从而不需要各个地区的专业部门手工建库，系统将把这些专用词汇存入一个分级的差频专用词库中并不断刷新、更新和替换，从而节约了大量的时间和精力。

2、本发明的级别优先匹配以专用词汇为重点优先匹配，减少了现有匹配方法因为优先热门通用词汇造成的错误，从而提高了拼音输入的准确率，减少了用数字键选择的次数，提高输入效率和速度。

3、本发明还可以用于语音识别过程中的拼音与文字匹配，也可以用于其它种类的文字输入，如果这种文字也是类似于拼音输入。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1所示，本实施例公开了一种分级的智能拼音与文字匹配方法，具体实施步骤如下：

S1、用户输入一个拼音句子；例如：当用户要输入的中文句子为：“投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸”时，他输入的拼音句子为[tou ru yue tang zhan yuegang xiang shi xian san wu jie1 di dao1 zha he san liu jie di dao zha]，称之为拼音串A。

S2、专用模式选择：系统有两种拼音匹配模式，一种为通用模式，即通用的频率优先匹配，用于一般的文字输入，另一种为专用模式，不同的模式下匹配流程不同，模式可以用户手动切换，也可以自动切换(后文阐述方法)；如上例：A中有专用词汇，进入专用模式。

S3、利用级别优先匹配对整句拼音进行中文文本匹配。例如，岳塘站、岳钢湘石线、接地刀闸这些都是专用词汇，差频值排序：岳塘站(1级)>岳钢湘石线(2级)>接地刀闸(3级)。1)逆向取词：从一级子库按差频值从大至小逐一取词，每取一个词就到拼音串A中查找是否有匹配的子串。目前的匹配方法是从串A取拼音，到词汇库查找，本专利的方法与其相反，所以称之为逆向取词；2)任意位置转换：目前的方法都是从第一个字母开始转换文字，本方法则不同，子串可以在串A的任意位置转换，如匹配差距大于给定阈值就放弃，再取后一个词，直到岳塘站拼音“yue tang zhan”，可以匹配拼音串A中的相应部分，从而拼音串A变为[tou ru岳塘站yue gang xiang shi xian san wu jie di dao zha he san liu jiedi dao zha]。此处逆向取词和任意位置转换是专门针对差频专用词汇设计的，与目前公知的方法不同。同理，之后会将串A余下的专用词汇转化：[tou ru岳塘站岳钢湘石线san wu接地刀闸he san liu接地刀闸]。

S5、频率优先匹配拼音与词汇。当串A中的全部专用词汇都转换完，就按照公知的频率优先匹配法匹配词汇：按照从前至后的顺序，取tou ru，查通用字典，得到“投入”，串A变为：[投入岳塘站岳钢湘石线san wu接地刀闸he san liu接地刀闸]，频率优先匹配法能按照出现频率的高低顺序列出多个选择，例如输入tou ru，除了显示出“投入”还有“透入”，而级别优先匹配法只提供首选词汇，考虑到专用词汇也可能同音，则需要移动光标到该词位置再数字键选择，一种优选的方案是：在首选词位置显示级别优先匹配的结果，之后使用频率优先匹配法同时匹配通用词库和专用词库的词汇，匹配的多个结果按照频率高低排队显示，供用户备选。

S6、余下的拼音匹配单个汉字，得到整句文本[投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸]。

S7、输出整句文字。

S8、刷新词汇的频率，特别是要刷新差频专用词汇的差频值及排序，本例中刷新差频词汇岳塘站、岳钢湘石线的差频值并更新其在库中的排序，未出现的差频词汇无需频繁刷新。

S9、如用户继续输入拼音句子，则重复以上流程，否则转下一步。

S10、结束。

图1的流程涉及的差频专用词库、匹配、模式切换的细节在下面分别阐述。

上述流程中，级别优先匹配必须基于差频专用词库。差频专用词库依据本专利的下述原理自动构建：

输入专业文本时，专用词汇的重要性高于普通词汇，因此要优先保证其匹配准确率，因而要建立专用词汇库，进一步，输入时不可避免出现的错误影响匹配的相似度，因此匹配相似度相差不大的情况下，要优先匹配高级别的专用词汇，此外，系统应通过程序自动建库。要系统通过程序自动建库，自动地将专用词汇与普通词汇区别出来，必须利用其差异。专用词汇，特别是本地专用词汇，如上文的专用词汇如“岳钢湘石线”，一般不会出现在普通的新闻或文章中，而会出现在本地电力调度日志、工作票、设备记录及本地通话文本记录，相反，上文的通用词汇如“投入”在普通的文章或网文中会频繁出现，此外词汇“接地刀闸”则在本地文本、电力学术文章和新闻报道中都可能出现，因此本专利提出：词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低。

以某个地方电力部门为例，差频专用词库的自动构建方法如下：

S1、采集专用资料的词汇，包括本机的电力文档、本地局域网共享的电力调度日志、工作票、设备记录和通话文本，并搜索学术期刊网络上的电力专业学术文章；

S2、对上一步所采集的专用资料的词汇进行清理、分词操作，并获得词汇列表，接着对词汇列表进行词频统计，得到专用词频词典。所述词频＝该词重复的次数×该词长度/全部资料总字数，在本地资料中不仅包含专用词汇(即本地专用词汇和专业术语)还包括通用词汇，因此专用词频词典中既包含了专用词汇也包含了通用词汇；

S3、对人民日报语料库及新浪、搜狐、网易三大网站的新闻进行文本词汇统计，得到通用词频词典，词频计算方法同上；通用资料中主要是包含通用词汇，也可能包含一部分专业术语，但出现频率较低，例如对电力的新闻报导中也可能有“接地刀闸”，一般极少出现本地专用词汇，如“岳钢湘石线”；

S4、对专用词频词典的每个词汇做差频操作，得到差频专用词库：

差频值一个词汇的专用词频－k×其通用词频，此处k为固定的系数，k可以通过统计得到，专用词频和通用词频分别查专用词频词典和通用词频词典得到，词典中查不到的词汇，其词频计为0；例1，计算“岳钢湘石线”的差频值，先要在专用词频词典中查到其专用词频，后在通用词频词典查不到该词，则其通用词频为0；例2，计算“接地刀闸”的差频值，先要在专用词频词典中查到其专用词频，后在通用词频词典查其通用词频，最后计算其差频值；

S5、将差频值排名前25％的词汇存入一级子库，26％至50％的词汇存入二级子库，51％至75％的词汇存入三级子库，其它大于0的词汇存入四级，差频值小于或等于0的舍去，同一级子库中，差频值高的排前；

S6、为差频专用词库中每一个词汇关联其对应的拼音，最终形成面向电力调度的差频专用词库。所述差频专用词库由一、二、三、四级子库组成。

在图1的流程中，拼音与词汇及文字的匹配可以按照公知的方法，本发明提供一种优选的匹配方案包括如下步骤：

计算字母编辑距离：指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操作次数，所述正确的拼音单元指该单元对应某个汉字的拼音，许可的编辑操作包括：插入一个字母、删除一个字母、将一个字母替换成另一个、两个字母交换位置；例：假定用户输入拼音“yue tna zhan”，显然，“tna”不是一个正确的拼音单元，则通过交换n和a的位置就可以得到正确的拼音单元“yue tan zhan”，此处字母编辑距离为1。

计算音素编辑距离：指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数，所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个，一次模糊音之间的替换只算0.5次；例：假定由于用户的拼音不标准，岳塘站“yue tang zhan”输成了“yue tan zhan”，则通过替换一个韵母ang就可以得到正确的拼音，此处an和ang是互为模糊音，因此音素编辑距离为0.5。

计算匹配值＝字母编辑距离+音素编辑距离；例，用户输入拼音“yue tna zhan”，与专用词汇岳塘站“yue tang zhan”匹配，得到：

匹配值＝1+0.5＝1.05；

如果匹配的是专用库的词汇，则当匹配值小于给定阈值时，输出匹配值和匹配成功信号，否则给出匹配失败信号和匹配值；此例输出1.05和成功信号。

如果匹配的是通用库的词汇，则仅输出匹配值。

在图1的流程中涉及专用模式选择，用户可以手动选择，此处提供一种自动转换的方法，其具体的过程如下：

S1、计算用户纠正值：如果当前输入拼音时弹出的首选词汇为通用词汇，用户纠正为专用词汇，则本次用户纠正值Z＝Z+5－G；如果输入拼音时弹出的首选词汇为专用词汇，用户纠正为通用词汇，则本次用户值Z＝Z－5+G，G为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数；

例：假定待输入2级专用词汇“岳钢”，用户输入拼音“yue gang”，界面显示首选词“粤港”，用户纠正为“岳钢”，假定Z的原值为0，则本次用户纠正值Z＝0+5－2＝3，假定阈值为2，3>2，系统切换为专用模式，后面的输入都进入专用模式。从此例看出，专用词汇的级别越高，G越小，该词汇越偏向于专用，则5－G越大，G最高为1级时5－G＝4，纠正值的变化最大，切换为专用模式越迫切，这个是符合规律的。

当输入为一段长文时，可以利用上下文的主题词推出文中连贯的主题语义，以此来辅助匹配，减少备选词选择操作，但图1流程仅仅考虑对单句匹配。一种优选的方案是在级别优先匹配之前加入主题词匹配，明确了对话的主题，可以提高整段输入的匹配准确率，具体步骤如下：

主题词确定：统计前文重复的词汇及其重复次数；如果该重复词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去；

式中，i、j为该词汇在第i、j句时重复，省略号表示其它重复句子，i，j＜n；G为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数。计算前n个句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种分级的智能拼音与文字匹配方法，其特征在于，包括：

2.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，所述差频专用词库的构建，包括以下步骤：

差频值＝一个词汇的专用词频－k×其通用词频，此处k为固定的系数，专用词频和通用词频分别由专用词频词典和通用词频词典得到，词典中查不到的词汇，其词频计为0；

3.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，所述级别优先匹配的步骤包括：

4.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，还包括：当输入多于5个句子时，则在级别优先匹配之前先进行主题词确定、主题词队列排序和主题词匹配，具体如下：

5.如权利要求1或3或4所述的一种分级的智能拼音与文字匹配方法，其特征在于，所述匹配包括如下步骤：

计算匹配值＝字母编辑距离+音素编辑距离；

如果匹配的是通用词库的词汇，仅输出匹配值。

6.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，还包括专用模式选择自动转换，包括如下步骤：