CN109739368A

CN109739368A - 一种汉语拼音的拆分的方法、装置

Info

Publication number: CN109739368A
Application number: CN201811642172.3A
Authority: CN
Inventors: 王昌
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-10

Abstract

本发明公开了一种汉语拼音的拆分的方法、装置，所述方法包括：获取待拆分拼音数据；对所述待拆分拼音数据进行归一化处理，得到归一化拼音数据；将所述归一化拼音数据与标准拼音数据进行相似度匹配，确定与所述归一化拼音数据相似度最高的目标标准拼音数据；对所述目标标准拼音数据进行拆分，将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。

Description

一种汉语拼音的拆分的方法、装置

技术领域

本发明涉及信息检索技术，尤其涉及一种汉语拼音的拆分的方法、装置。

背景技术

在应用搜索中，汉语拼音搜索是常见的搜索方式。例如，用户输入liudehuawangqingshui，目的是搜索刘德华演唱的忘情水。这时候，需要能拆分出liudehua和wangqingshui两个实体。同时拼音输入相比较汉字输入更容易输入错误，且存在多音字问题，而目前技术只允许在用户的输入完全正确时才能正确拆分，如果存在输入错误，则无法拆分，而现实情况中，拼音输入错误的情况普遍存在；另外，现有技术采用对拼音数据直接进行拆分，致使拆分效率较低。

发明内容

为解决上述技术问题，本发明实施例提供了一种汉语拼音的拆分的方法、装置。

本发明实施例提供的一种汉语拼音拆分的方法，包括：

获取待拆分拼音数据；

对所述待拆分拼音数据进行归一化处理，得到归一化拼音数据；

将所述归一化拼音数据与标准拼音数据进行相似度匹配，确定与所述归一化拼音数据相似度最高的目标标准拼音数据；

对所述目标标准拼音数据进行拆分，将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。

其中，所述对所述目标标准拼音数据进行拆分，包括：

在所述目标标准拼音数据中的标记符号的所在位置处，对所述目标标准拼音数据进行拆分。

其中，所述方法还包括：

获取汉语语料数据；

对所述汉语语料数据进行预处理，得到所述标准拼音数据。

其中，所述预处理包括：

将所述汉语语料数据进行归一化处理，得到归一化汉语语料数据；

对所述归一化汉语语料数据进行汉字转拼音处理，得到归一化拼音数据；

基于所述归一化拼音数据，生成标准拼音数据。

其中，所述归一化处理包括：

将所述汉语语料数据中的繁体字转换为简体字，和/或将所述汉语语料数据中的字符状态由全角转为半角，和/或删除所述汉语语料数据中的括号以及括号中的内容，和/或删除所述汉语语料数据中的各类符号以及空格。

其中，所述基于所述归一化拼音数据，生成标准拼音数据包括：

在所述归一化拼音数据待拆分的位置插入标记符号，得到所述标准拼音数据。

其中，所述归一化拼音数据待拆分的位置包括：

所述归一化拼音数据中所属类别不同的拼音数据之间，或根据拆分需求确定的位置。

组合至少两个归一化拼音数据，得到所述标准拼音数据；

其中，在所述标准拼音数据中不同的归一化拼音数据之间插入有标记符号。

其中所述方法还包括：

基于所述目标标准拼音数据，对所述待拆分拼音数据中存在的拼写错误进行纠正。

本发明实施例提供的一种汉语拼音拆分的装置，包括：

获取模块，用于获取待拆分拼音数据；

归一化处理模块，用于对所述待拆分拼音数据进行归一化处理，得到归一化拼音数据；

相似度匹配模块，用于将所述归一化拼音数据与标准拼音数据进行相似度匹配，确定与所述归一化拼音数据相似度最高的目标标准拼音数据；

拆分模块，用于对所述目标标准拼音数据进行拆分，将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。

其中，在所述拆分模块中，所述对所述目标标准拼音数据进行拆分，包括：

其中，所述装置还包括：汉语语料数据获取模块和预处理模块

所述汉语语料数据获取模块，用于获取汉语语料数据；

所述预处理模块，用于对所述汉语语料数据进行预处理，得到所述标准拼音数据。

其中，所述预处理模块中，所述预处理包括：

基于所述归一化拼音数据，生成标准拼音数据。

其中，所述预处理模块中，所述归一化处理包括：

其中，所述预处理模块中，所述基于所述归一化拼音数据，生成标准拼音数据包括：

其中，所述预处理模块中，所述归一化拼音数据待拆分的位置包括：

组合至少两个归一化拼音数据，得到所述标准拼音数据；

其中，所述装置还包括：拼写错误纠正模块，用于基于所述目标标准拼音数据，对所述待拆分拼音数据中存在的拼写错误进行纠正。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现前述汉语拼音拆分的方法中任一项步骤。

本发明实施例的技术方案中，获取待拆分拼音数据；对所述待拆分拼音数据进行归一化处理，得到归一化拼音数据；将所述归一化拼音数据与标准拼音数据进行相似度匹配，确定与所述归一化拼音数据相似度最高的目标标准拼音数据；对所述目标标准拼音数据进行拆分，将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。如此，将对待拆分拼音数据的拆分最后转化为对目标标准拼音数据的拆分，即使待拆分拼音数据中有输入错误，也可以完成拆分过程，通过；另外，通过将对待拆分拼音数据的拆分转化为对目标标准拼音数据的拆分，提高了拆分效率。

附图说明

附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例；

图1为本发明实施例的一种汉语拼音拆分的方法的流程示意图；

图2为本发明实施例的一种基于N-Gram相似度算法的拆分结果返回示意图；

图3为本发明实施例的一种汉语拼音拆分的装置的结构示意图；

图4为本发明实施例的一种汉语拼音拆分的装置的结构示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

图1为本发明实施例的一种汉语拼音拆分的方法的流程示意图，如图1所示，所述汉语拼音拆分的方法包括以下步骤：

步骤101：获取待拆分拼音数据。

在检索的场景下，这里的待拆分拼音数据可以是用户输入的拼音检索词。例如：在音频、视频APP应用场景中，用户通常会在搜索框中输入拼音检索词进行音视频的搜索，此时该拼音检索词为对待拆分拼音数据。

步骤102：对所述待拆分拼音数据进行归一化处理，得到归一化拼音数据。

这里的归一化处理可以包括：将繁体字转换为简体字，和/或将字符状态由全角转为半角，和/或删除括号以及括号中的内容，比如：待拆分拼音数据为夜曲(中国好声音)，归一化处理后为夜曲；和/或删除各类符号以及空格等。

步骤103：将所述归一化拼音数据与标准拼音数据进行相似度匹配，确定与所述归一化拼音数据相似度最高的目标标准拼音数据。

在一个实施例中，所述方法还包括：获取汉语语料数据；对所述汉语语料数据进行预处理，得到所述标准拼音数据。这里的汉语语料数据可以是业务(如用户检索或其他业务)过程中生成的汉语语料数据，比如，用户通过汉语检索词进行检索，可以将该汉语检索词作为汉语语料数据。

在一个实施例中，所述预处理包括：将所述汉语语料数据进行归一化处理，得到归一化汉语语料数据；对所述归一化汉语语料数据进行汉字转拼音处理，得到归一化拼音数据；基于所述归一化拼音数据，生成标准拼音数据。这里对所述归一化汉语语料数据进行汉字转拼音处理，得到归一化拼音数据，举例说明，如表1所示：

表1

在一个实施例中，所述归一化处理包括：将所述汉语语料数据中的繁体字转换为简体字，和/或将所述汉语语料数据中的字符状态由全角转为半角，和/或删除所述汉语语料数据中的括号以及括号中的内容，和/或删除所述汉语语料数据中的各类符号以及空格。例如，汉语语料数据为红豆(最美和声)，归一化处理后为红豆。

在一个实施例中，所述基于所述归一化拼音数据，生成标准拼音数据包括：在所述归一化拼音数据待拆分的位置插入标记符号，得到所述标准拼音数据。实际应用中，可以有多种方式来生成标准拼音数据，以本实施例提供的方式为例进行说明：

例如归一化拼音数据为姓名，可以在姓和人名中间插入第一符号标记(比如^等符号，也可以根据需要设置为其他符号)，从而生成标准拼音数据。以liudehua为例，可以在姓和人名中插入^，从而生成标准拼音数据liu^dehua。

又比如，拼音数据为姓名+歌名(或者影视、书籍等作品名称，这里以歌名为例)，可以在姓名和歌名之间插入第二符号标记，从而生成标准拼音数据，同时也可以在姓和人名之间插入第一符号标记，从而将插入了第一符号标记以及第二符号标记的拼音数据作为标准拼音数据。

当然在实际应用中，可以根据具体需要，将需要拆分的部分插入符号标记，从而生成标准拼音数据，这里并不对符号标记的具体形式以及具体需要拆分的部分的具体内容进行限定。

在一个实施例中，所述归一化拼音数据待拆分的位置包括：所述归一化拼音数据中所属类别不同的拼音数据之间，或根据拆分需求确定的位置。例如，归一化拼音数据为姓名+歌名(或者影视、书籍等作品名称，这里以歌名为例)，则归一化拼音数据待拆分的位置可以选为在姓名和歌名之间，或基于实际的拆分需求在某个选定位置进行拆分。

在一个实施例中，所述基于所述归一化拼音数据，生成标准拼音数据包括：组合至少两个归一化拼音数据，得到所述标准拼音数据；其中，在所述标准拼音数据中不同的归一化拼音数据之间插入有标记符号。不同于前述实施例的生成标准拼音数据的方式，本实施提供的基于所述归一化拼音数据，生成标准拼音数据的方式举例说明如下：

比如归一化拼音数据为liudehua以及wangqingshui，可以将两个归一化拼音数据进行组合，从而生成标准拼音数据，具体组合过程中，可以在不同拼音数据之间插入符号标记。比如，该例子中在liudehua和wangqingshui之间插入符号标记～(具体符号可以根据实际需要进行设定)，从而生成标准拼音数据liudehua～wangqingshui。

另外，对于两个拼音数据的前后位置关系，可以根据需要进行设置，该例子中还可以同时生成标准拼音数据wangqingshui～liudehua。并且也可以将三个或三个以上的拼音数据进行组合生成标准拼音数据，这里并不对进行组合的拼音数据的数量进行限定。

通过这种组合的形式生成标准拼音数据，在实际应用中，可以进一步扩展标准拼音数据的数量，从而进一步提高后续拼音拆分结果的准确性。

本实施例中，将所述归一化拼音数据与标准拼音数据进行相似度匹配，确定与所述归一化拼音数据相似度最高的目标标准拼音数据。其中，具体地相似度匹配算法可以是Levenshtein distance、N-Gram、Jaccard distance、cosine similarity等算法。

在实际应用中，还可以通过其他相似度算法来确定该目标标准拼音数据，这里并不对具体地相似度算法进行限定。

比如，可以先将归一化处理后的待拆分拼音数据以及标准拼音数据转化为空间向量，分别计算各个标准拼音数据所对应的空间向量与该待拆分拼音数据所对应的空间向量的欧氏距离、余弦距离等，将欧氏距离或余弦距离最小的标准拼音数据作为目标标准拼音数据。

下面以N-Gram相似度算法为例进行说明，具体执行过程可参照步骤S1-S3来执行：

步骤S1：将标准拼音数据采用N-Gram相似度算法提取特征，例如wangfei～hongdou:

start3:wan^2.0,end3:dou^1.0,gram3:wan^0.5,gram3:ang^0.5,gram3:ngf^0.5,gram3:gfe^0.5,gram3:fei^0.5,gram3:ei～^0.5,gram3:i～h^0.5,gram3:～ho^0.5,gram3:hon^0.5,gram3:ong^{^}0.5,gram3:ngd^0.5,gram3:gdo^0.5,gram3:dou^0.5,start4:wang^2.0,end4:gdou^1.0,gram4:wang^0.5,gram4:angf^0.5,gram4:ngfe^0.5,gram4:gfei^0.5,gram4:fei～^0.5,gram4:ei～h^0.5,gram4:i～ho^0.5,gram4:～hon^0.5,gram4:hong^0.5,gram4:ongd^0.5,gram4:ngdo^0.5,gram4:gdou^0.5]

可以看出使用了3-gram和4-gram，如果输入串较短，也会使用2-gram提取特征：

start3:wan2.0：表示以wan开头的特征权重为2.0

start4:wang2.0:表示以wang开头的特征权重为2.0

end3:dou1.0：以dou为结束的特征权重为1.0

end4:gdou1.0：以gdou为结束的特征权重为1.0

其他中间匹配的权重均为0.5

即开头匹配的权重更高，结尾匹配的权重次之，中间的权重最低。

步骤S2：将归一化处理后的待拆分拼音数据做同样处理，提取相关特征：

例如输入存在拼写错误fengxiaoganyeya(正确为fengxiaogangyeyan)：

[start3:fen^2.0,end3:yan^1.0,gram3:fen^0.5,gram3:eng^0.5,gram3:ngx^0.5,gram3:gxi^0.5,gram3:xia^0.5,gram3:iao^0.5,gram3:aog^0.5,gram3:oga^0.5,gram3:gan^0.5,gram3:ang^0.5,gram3:ngy^0.5,gram3:gye^0.5,gram3:yey^0.5,gram3:eya^0.5,gram3:yan^0.5,start4:feng^2.0,end4:eyan^1.0,gram4:feng^0.5,gram4:engx^0.5,gram4:ngxi^0.5,gram4:gxia^0.5,gram4:xiao^0.5,gram4:iaog^0.5,gram4:aoga^0.5,gram4:ogan^0.5,gram4:gang^0.5,gram4:angy^0.5,gram4:ngye^0.5,gram4:gyey^0.5,gram4:yeya^0.5,gram4:eyan^0.5]

步骤S3:进行特征匹配，返回结果根据相似度从高到底排序，将相似度最高的数据作为目标标准拼音数据。

如果归一化处理后的待拆分拼音数据与标准拼音数据完全正确，则特征完全相同；

如果归一化处理后的待拆分拼音数据中有少量错误，则绝大部分特征仍然与与标准拼音数据相同，相似度仍然很高。本方案仍然可以拆分同时纠正为正确的拼写。如前述输入错误的fenxiaogangyeya；根据图2所示的拆分结果返回示意图，可见，返回正确的fengxiaogang(VIDEO_PEOPLE)和yeyan(VIDEO_NAME)。

步骤104：对所述目标标准拼音数据进行拆分，将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。

本实施例中，由于目标标准拼音数据中包含有符号标记，能够标记出待拆分的部分如姓、人名、作品名等，因此在对标准拼音数据进行拆分时，相对于对待拆分拼音数据直接进行拆分，可以大大的提高拆分效率。

并且即使原待拆分拼音数据中有少量输入错误，由于经过相似度匹配确定最相近的目标标准拼音数据，并且通过转化为对目标标准拼音数据的拆分，从而避开其输入错入，因此还能解决在输入错误情况下无法拆分的问题。

在一个实施例中，所述对所述目标标准拼音数据进行拆分，包括：在所述目标标准拼音数据中的标记符号的所在位置处，对所述目标标准拼音数据进行拆分。

在一个实施例中，所述方法还包括：基于所述目标标准拼音数据，对所述待拆分拼音数据中存在的拼写错误进行纠正。

如图3所示，本实施例提供一种汉语拼音拆分的装置，所述装置包括：

获取模块，用于获取待拆分拼音数据；

在一个实施例中，在所述拆分模块中，所述对所述目标标准拼音数据进行拆分，包括：

在一个实施例中，所述装置还包括：汉语语料数据获取模块和预处理模块所述汉语语料数据获取模块，用于获取汉语语料数据；

在一个实施例中，，所述预处理模块中，所述预处理包括：

基于所述归一化拼音数据，生成标准拼音数据。

在一个实施例中，所述预处理模块中，所述归一化处理包括：

在一个实施例中，所述预处理模块中，所述基于所述归一化拼音数据，生成标准拼音数据包括：

在一个实施例中，所述预处理模块中，所述归一化拼音数据待拆分的位置包括：

组合至少两个归一化拼音数据，得到所述标准拼音数据；

在一个实施例中，所述装置还包括：

拼写错误纠正模块，用于基于所述目标标准拼音数据，对所述待拆分拼音数据中存在的拼写错误进行纠正。

图4是本发明实施例的一种汉语拼音拆分的装置300的结构示意图，图3所示的一种汉语拼音拆分的装置设置在所述终端上，包括：至少一个处理器301、存储器302、用户接口303、至少一个网络接口304。广告的发送装置300中的各个组件通过总线系统305耦合在一起。可理解，总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统405。

其中，用户接口303可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

本发明实施例中的存储器302用于存储各种类型的数据以支持广告的发送装置300的操作。这些数据的示例包括：用于在广告的发送装置300上操作的任何计算机程序，如操作系统3021和应用程序3022；其中，操作系统3021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022可以包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序3022中。

上述本发明实施例揭示的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器301可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成前述方法的步骤。

可以理解，存储器302可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可评论显示可编程只读存储器(EPROM，Erasable ProgrammableRead-Only Memory)、电可评论显示可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。

基于本申请各实施例提供的汉语拼音拆分的方法，本申请还提供一种计算机可读存储介质，参照图3所示，所述计算机可读存储介质可以包括：用于存储计算机程序的存储器302，上述计算机程序可由汉语拼音拆分装置300的处理器301执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种汉语拼音拆分的方法，其特征在于，所述方法包括：

获取待拆分拼音数据；

2.根据权利要求1所述的汉语拼音拆分的方法，其特征在于，所述对所述目标标准拼音数据进行拆分，包括：

3.根据权利要求1所述的汉语拼音拆分的方法，其特征在于，所述方法还包括：

获取汉语语料数据；

对所述汉语语料数据进行预处理，得到所述标准拼音数据。

4.根据权利要求3所述的汉语拼音拆分的方法，其特征在于，所述预处理包括：

基于所述归一化拼音数据，生成标准拼音数据。

5.根据权利要求4所述的汉语拼音的拆分的方法，其特征在于，所述归一化处理包括：

6.根据权利要求4所述的汉语拼音拆分的方法，其特征在于，所述基于所述归一化拼音数据，生成标准拼音数据包括：

7.根据权利要求6所述的汉语拼音拆分的方法，其特征在于，所述归一化拼音数据待拆分的位置包括：

8.根据权利要求4或6所述的汉语拼音拆分的方法，其特征在于，所述基于所述归一化拼音数据，生成标准拼音数据包括：

组合至少两个归一化拼音数据，得到所述标准拼音数据；

9.根据权利要求1所述的汉语拼音拆分的方法，其特征在于，所述方法还包括：

10.一种汉语拼音拆分的装置，其特征在于，所述装置包括：

获取模块，用于获取待拆分拼音数据；