CN111142681A - 一种确定汉字拼音的方法、系统、装置及存储介质 - Google Patents

一种确定汉字拼音的方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN111142681A
CN111142681A CN201811312773.8A CN201811312773A CN111142681A CN 111142681 A CN111142681 A CN 111142681A CN 201811312773 A CN201811312773 A CN 201811312773A CN 111142681 A CN111142681 A CN 111142681A
Authority
CN
China
Prior art keywords
pinyin
input data
candidate
character
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811312773.8A
Other languages
English (en)
Other versions
CN111142681B (zh
Inventor
胡娟
陈欢
宋奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811312773.8A priority Critical patent/CN111142681B/zh
Publication of CN111142681A publication Critical patent/CN111142681A/zh
Application granted granted Critical
Publication of CN111142681B publication Critical patent/CN111142681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种汉字拼音确定方法、系统、装置及存储介质。所述方法包括以下一个或一个以上操作。可以获取待确定拼音的输入数据。可以基于拼音确定模型获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,所述概率值为对应候选拼音结果为所述输入数据的发音的概率。可以将概率值最大的候选拼音结果确定为所述输入数据的目标拼音。本申请中公开的方法,可以根据汉字的上下文语境,选择合适的多音字拼音,解决了常用算法中词典未覆盖的多音字词问题。

Description

一种确定汉字拼音的方法、系统、装置及存储介质
技术领域
本发明涉及语言处理技术领域,更具体的,涉及一种确定汉字拼音的方法、系统、装置及存储介质。
背景技术
在对中文汉字进行拼音注音时,常用的汉字转拼音的算法依赖于词典,包括词语映射拼音词典和单个字映射拼音词典。对于既有词典,无法覆盖新出现的词语,并且在面对单个字(或多音字)转拼音时,无法根据该字的具体上下文语境灵活的选择拼音,只能根据设定好的位置去确定该字的多个读音中的一个。这样得到的汉字转拼音的正确率较低。因此,需要一种可根据上下文语境确定汉字拼音的方法。
发明内容
针对现有技术中在进行汉字转拼音时,无法根据上下文灵活选择正确拼音的问题,本发明的一个实施例在于提供一种确定汉字拼音的方法、系统、装置及存储介质,首先确定待转拼音的汉字的所有读音,进一步基于由训练语料对训练完成的拼音确定模型获取拼音对应待转汉字的概率值,基于概率值确定待转拼音的汉字的拼音结果,提高了汉字转拼音的准确性。
为了达到上述发明的目的,本发明提供的技术方案如下:
一种确定汉字读音的方法。所述方法在可以在包括一个处理器和一个存储器的设备上实现。所述方法可以包括以下一个或一个以上操作。可以获取待确定拼音的输入数据。可以对所述输入数据进行处理,获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,所述概率值为对应候选拼音结果为所述输入数据的发音的概率。可以将概率值最大的候选拼音结果确定为所述输入数据的目标拼音,并输入所述目标拼音。
在本发明中,所述对所述输入数据进行处理,获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,可以包括以下一个或一个以上的操作。可以基于状态转移矩阵及发射矩阵确定所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值。所述状态转移矩阵包含训练语料中全部汉字的拼音组成的集合中,任意一个拼音转移到集合中其他拼音的概率值以及转移到其自身的概率值。所述发射矩阵包含所述集合中任意一个拼音对应的汉字取训练语料中各汉字的概率值。所述训练语料包括多条由含有汉字的文本及其对应的拼音组成的语料对。
在本发明中,所述基于状态转移矩阵及发射矩阵确定所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,可以包括以下一个或一个以上操作。可以确定所述输入数据的观察序列;所述观察序列是将所述输入数据对应的文本拆分成单个字符后的字符序列。确定所述观察序列中每个字符的状态序列;其中,汉字字符的状态序列包含该汉字的全部拼音,数字字符、字母字符与符号字符的状态序列均为其本身。可以基于所述状态转移矩阵以及所述发射矩阵确定所述观察序列中每个汉字字符取其状态序列中不同拼音的概率值,得到所述输入数据的至少一种候选拼音结果及其对应的概率值。
在本发明中,所述将概率值最大的候选拼音结果确定为所述输入数据的目标拼音,可以包括以下一个或一个以上操作。可以保留所述观察序列中每个汉字字符的状态序列中概率值最大的拼音,得到所述输入数据的目标拼音。
一种确定汉字拼音系统。所述系统包括获取模块、候选拼音确定模块以及目标拼音确定模块。所述获取模块用于获取待确定拼音的输入数据。所述候选拼音确定模块用于对所述输入数据进行处理,获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,所述概率值为对应候选拼音结果为所述输入数据的发音的概率。所述目标拼音确定模块用于将概率值最大的候选拼音结果确定为所述输入数据的目标拼音。
一种目标检测装置,所述装置包括处理器以及存储器;所述存储器用于存储指令,其特征在于,所述指令被所述处理器执行时,导致所述装置实现如上述任一项所述确定汉字拼音的方法对应的操作。
一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机运行如上述任意一项所述确定汉字拼音的方法。
附加的特征将在下面的描述中部分地阐述,并且对于本领域技术人员来说,通过查阅以下内容和附图将变得显而易见,或者可以通过实例的产生或操作来了解。本发明的特征可以通过实践或使用以下详细实例中阐述的方法、工具和组合的各个方面来实现和获得。
附图说明
根据示例性实施例可以进一步描述本申请。参考附图可以详细描述所述示例性实施例。所述实施例并非限制性的示例性实施例,其中相同的附图标记代表附图的几个视图中相似的结构,并且其中:
图1是根据本发明的一些实施例所示的一个示例性汉字拼音确定系统的示意图;
图2是根据本发明的一些实施例所示的一个示例性计算设备的示例性硬件组件和/或软件组件的示意图;
图3是根据本发明的一些实施例所示的一个示例性移动设备的示例性硬件组件和/或软件组件的示意图;
图4是根据本发明的一些实施例所示的一个示例性处理引擎的框图;
图5是根据本发明的一些实施例所示的确定汉字拼音的示例性流程图;
图6是根据本发明的一些实施例所示的获取拼音确定模型的示例性流程图;
图7是根据本发明的一些实施例所示的获取输入数据的候选拼音结果的示例性流程图;
图8是根据本发明的一些实施例所示的状态转移矩阵的示例性示意图;
图9是根据本发明的一些实施例所示的发射矩阵的示例性示意图;
图10是根据本发明的一些实施例所示的输入数据的状态序列及目标拼音结果的示例性示意图。
具体实施方式
为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本申请的实施例可以应用于不同的应用场景,包括但不限于汉字注音、读音预测、地图搜索、互联网查询、电商购物、儿童教育、语言翻译等或其任意组合。本申请的不同实施例可应用于不同的行业,包括但不限于互联网、金融业、智能家居、电商购物、安防、交通、司法、军队、公安、边检、政府、航天、电力、工厂、农林、教育、娱乐、医疗等一种或一种以上的组合。应当理解的是,本申请的系统及方法的应用场景仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。
图1是根据本发明的一些实施例所示的一种汉字拼音确定系统100的示意图。例如,汉字拼音确定系统100可以是一个为汉字-拼音转换提供服务的平台。汉字拼音确定系统100可以包括一个服务器110和一个存储设备120。服务器110可以包括一个处理引擎112。在一些实施例中,汉字拼音确定系统100可以通过网络130与服务请求系统140进行通讯。
在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群组。所述服务器群可以是集中式的或分布式的(例如,服务器110可以是一个分布式的系统)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以通过网络130访问存储在存储设备120和/或终端140中的信息和/或数据。再例如,服务器110可以直接连接到存储设备130和/或终端140以访问存储的信息和/或数据。在一些实施例中,服务器110可以在一个云平台上实现。仅仅举个例子,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、云之间、多重云等或上述举例的任意组合。在一些实施例中,服务器110可以在与本申请图2或图3所示的计算设备上实现。例如,服务器110可以在如图2所示的一个计算设备200上实现,包括计算设备200中的一个或多个部件。再例如,服务器110可以在如图3所示的一个移动设备300上实现,包括计算设备300中的一个或多个部件。
在一些实施例中,服务器110可以包括一个处理引擎112。处理引擎112可以处理与确定汉字拼音相关的信息和/或数据以执行本申请描述的一个或多个功能。例如,处理引擎112可以从输入数据中获取所有汉字的多种拼音。在一些实施例中,处理引擎112可以包括一个或多个处理器(例如,单核处理器或多核处理器)。仅仅举个例子,处理引擎112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理器(PPU)、数字信号处理器(DSP)、现场可编辑门阵列(FPGA)、可编辑逻辑器件(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或上述举例的任意组合。
存储设备120可以存储数据和/或指令。在一些实施例中,存储设备130可以存储从终端140获得的数据。在一些实施例中,存储设备120可以存储供服务器110执行或使用的数据和/或指令,服务器110可以通过执行或使用所述数据和/或指令以实现本申请描述的示例性方法。在一些实施例中,存储设备120可以包括大容量存储器、可移动存储器、挥发性读写存储器、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态硬盘等。示例性的可移动存储器可以包括闪存盘、软盘、光盘、记忆卡、压缩硬盘、磁带等。示例性的挥发性只读存储器可以包括随机存储器(RAM)。示例性的随机存储器可以包括动态随机存储器(DRAM)、双数据率同步动态随机存储器(DDRSDRAM)、静态随机存储器(SRAM)、可控硅随机存储器(T-RAM)和零电容存储器(Z-RAM)等。示例性的只读存储器可以包括掩蔽型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、压缩硬盘只读存储器(CD-ROM)和数字多功能硬盘只读存储器等。在一些实施例中,存储设备120可以在一个云平台上实现。仅仅举个例子,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、云之间、多重云等或上述举例的任意组合。
在一些实施例中,存储设备120可以与网络130连接以实现与汉字拼音确定系统100和/或服务请求系统140中的一个或多个部件(例如,服务器110、服务请求终端140-1、140-2、140-3、140-4等)之间的通信。汉字拼音确定系统100和/或服务请求系统140中的一个或多个部件可以通过网络130访问存储在存储设备120中的数据或指令。在一些实施例中,存储设备120可以直接与服务请求系统140中的一个或多个部件连接或通信。在一些实施例中,存储设备120可以是服务器110的一部分。
网络130可以促进信息和/或数据的交换。在一些实施例中,汉字拼音确定系统100和/或服务请求系统140中的一个或多个部件(例如,服务器110、存储设备120、服务请求终端140-1、140-2、140-3、140-4等)可以通过网络130向汉字拼音确定系统100中的其他部件发送信息和/或数据。例如,服务器110可以通过网络130从服务请求系统140处获取/得到请求。在一些实施例中,网络130可以是有线网络或无线网络中的任意一种,或其组合。例如,网络130可以包括电缆网络、有线网络、光纤网络、远程通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或上述举例的任意组合。在一些实施例中,网络130可以包括一个或多个网络接入点。例如,网络130可能包括有线或无线网络接入点。通过接入点,汉字拼音确定系统100和/或服务请求系统140的一个或多个部件可能连接到网络130以交换数据和/或信息。
服务请求系统140可以包括一个或一个以上带有拍照和/或摄像功能的终端。例如,台式电脑140-1、笔记本电脑140-2、摄像设备140-3、智能移动设备140-4等。在一些实施例中,所述摄像设备140-3可以包括但不限于摄像机、照相机等或其任意组合。在一些实施例中,移动设备140-4可以包括但不限于智能手机、个人数码助理(Personal DigitalAssistance,PDA)、平板电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备、显示增强设备等或其任意组合。在一些实施例中,服务请求系统140可以将文本、图像和/或视频发送至汉字拼音确定系统100中的一个或多个设备中。例如,服务请求系统140可以将文本、图像和/或视频发送至服务器110进行处理。
图2是根据本发明的一些实施例所示的一种示例性计算设备200的示意图。服务器110、存储设备120和/或终端140可以在计算设备200上实现。例如,处理引擎112可以在计算设备200上实现并被配置为实现本申请中所披露的功能。
计算设备200可以包括用来实现本申请所描述的系统的任意部件。例如,处理引擎112可以在计算设备200上通过其硬件、软件程序、固件或其组合实现。为了方便起见图中仅绘制了一台计算机,但是本申请所描述的与汉字拼音确定系统100相关的计算功能可以以分布的方式、由一组相似的平台所实施,以分散系统的处理负荷。
计算设备200可以包括与网络连接的通信端口250,用于实现数据通信。计算设备200可以包括一个处理器(例如,CPU)220,可以以一个或多个处理器的形式执行程序指令。示例性的电脑平台可以包括一个内部总线210、不同形式的程序存储器和数据存储器包括,例如,硬盘270、和只读存储器(ROM)230或随机存储器(RAM)240,用于存储由计算机处理和/或传输的各种各样的数据文件。示例性的计算设备可以包括存储在只读存储器230、随机存储器240和/或其他类型的非暂时性存储介质中的由处理器220执行的程序指令。本申请的方法和/或流程可以以程序指令的方式实现。计算设备200也包括输入/输出部件260,用于支持电脑与其他部件之间的输入/输出。计算设备200也可以通过网络通讯接收本披露中的程序和数据。
为理解方便,图2中仅示例性绘制了一个处理器。然而,需要注意的是,本申请中的计算设备200可以包括多个处理器,因此本申请中描述的由一个处理器实现的操作和/或方法也可以共同地或独立地由多个处理器实现。例如,如果在本申请中,计算设备200的处理器执行步骤1和步骤2,应当理解的是,步骤1和步骤2也可以由计算设备200的两个不同的处理器共同地或独立地执行(例如,第一处理器执行步骤1,第二处理器执行步骤2,或者第一和第二处理器共同地执行步骤1和步骤2)。
图3是根据本发明的一些实施例所示的一个示例性的移动设备300的示例性硬件和/或软件的示意图。终端140可以在移动设备300上实现。如图3所示,移动设备300可以包括一个通讯单元310、一个显示单元320、一个图形处理器330、一个处理器340、一个输入/输出单元350、一个内存360和一个存储单元390。移动设备300中还可以包括一个总线或者一个控制器。在一些实施例中,移动操作系统370和一个或多个应用程序380可以从存储单元390加载到内存360中,并由处理器340执行。在一些实施例中,应用程序380可以接收和显示与处理引擎112有关的图像处理或其他信息的信息。输入/输出单元350可以实现用户与汉字拼音确定系统100的交互,并将交互相关信息通过网络130提供给汉字拼音确定系统100中的其他部件,如服务器110。
为了实现本申请中描述的各种模块、单元及其功能,计算机硬件平台可以用作这里提到的一个或多个元件的硬件平台。一个拥有用户界面元件的计算机可以用于实现个人计算机(PC)或者其它任何形式的工作站或终端设备。通过合适的编程,一个计算机也可以充当一台服务器。
图4是根据本发明的一些实施例所示的示例性处理引擎112的框图。如果所示,处理引擎112可以包括获取模块410、候选拼音确定模块420目标拼音确定模块430和训练模块440。
获取模块410可以获取数据。在一些实施例中,获取模块410可以从汉字拼音确定系统100、存储设备120、服务请求系统140或本申请中公开的能够存储数据的任何设备或组件中的一个或一个以上获取数据。所获取的数据可以包括文本数据、图像数据、视频数据、用户指令、算法、模型等中的一种或多种组合。在一些实施例中,获取模块410可以获取待确定拼音的输入数据。所述输入数据可以是文本数据、语音数据、图像数据等或其任意组合。所述文本数据包括但不限于一个或一个以上汉字、一个一个或一个以上词语、一个一个或一个以上句子、一段或一端以上文字内容等或其任意组合。所述语音数据包括但不限于单个汉字语音、汉字词句语音、段落语音等或其任意组合。所述图像数据包括包含汉字文本的图像和/或视频。在一些实施例中,获取模块410在获取上述提及的数据后,可以传输至处理引擎112的其他模块(例如,候选拼音确定模块420)用于后续操作,或通过网络130传输至存储设备120用于存储。
候选拼音确定模块420可以用于确定所述输入数据的候选拼音结果,以及对应的概率值。在一些实施例中,候选拼音确定模块420可以确定所述输入数据的观察序列。所述观察序列是将所述输入数据对应的文本拆分成单个字符后的字符序列。例如,对于文本“厦门大学研究生院2#B栋4层”,所述观察序列可以是
(“厦”“门”“大”“学”“研”“究”“生”“院”“2”“#”“B”“栋”“4”“层”)。在一些实施例中,候选拼音确定模块420可以确定所述观察序列中每个字符的状态序列。对于汉字,所述状态序列可以是每个字符对应的拼音的集合。对于数字、外文及符号,所对应的状态序列可以是其本身。例如,对于观察序列(“厦”“门”“大”“学”“研”“究”“生”“院”“2”“#”“B”“栋”“4”“层”),所述状态序列可以是(“厦-xia4、sha4”“门-men2”“大-da4、dai4”“学-xue2”“研-yan2”“究-jiu1”“生-sheng1”“院-yuan4”“2-2”“#-#”“B-B”“栋-dong4”“4-4”“层-ceng2”)。在一些实施例中,候选拼音确定模块420可以基于所述状态转移矩阵以及所述发射矩阵确定所述观察序列中每个汉字字符取其状态序列中不同拼音的概率值,得到所述输入数据的至少一种候选拼音结果及其对应的概率值。所述候选拼音结果可以是所述输入数据的每个字符的状态序列取其一种拼音组合后得到的。所述概率值可以是对应的候选拼音结果为输入数据的正确读音的几率。
目标拼音确定模块430可以用于将概率值最大的候选拼音结果作为所述输入数据的目标拼音结果。在一些实施例中,所述目标拼音结果可以是输入数据的最优拼音路径。目标拼音确定模块430可保留所述观察序列中每个汉字字符的状态序列中概率值最大的拼音,得到所述输入数据的目标拼音。
训练模块440可以用于获取拼音确定模型。在一些实施例中,所述拼音确定模型基于隐马尔可夫模型建模后经训练语料训练后获取。在一些实施例中,所述训练语料为包括了多条由包含汉字的文本及其对应于所述文本的拼音结果组成的语料对。所述文本可以包括汉字文本、数字文本、外文文本、符号文本等或其任意组合。在一些实施例中,可以获取点击日志作为训练语料。所述点击日志可以包括终端140的用户输入至终端140的输入信息和用户选择的最终信息。例如,一个网页的点击日志记录了用户在网页检索框中输入的拼音以及用户最终选中的信息。用户的输入信息和选择的最终信息组成了一个语料对。每个语料对中,输入信息中的拼音可以映射到最终信息中的汉字,得到汉字-拼音的训练数据。在一些实施例中,训练模块440可以基于所述训练语料获取所述拼音确定模型的状态转移矩阵和发射矩阵。所述状态转移矩阵包含训练语料中全部汉字的拼音组成的集合中,任意一个拼音转移到集合中其他拼音的概率值以及转移到其自身的概率值。所述发射矩阵包含所述集合中任意一个拼音对应的汉字取训练语料中各汉字的概率值。训练模块440可以通过机器统计训练语料的语料对中,当某一拼音A出现条件下其下一个拼音为B(B可以是所述集合中的其他拼音,也可以是拼音A自身)的次数,某一个汉字和/或拼音出现的次数,以及某一拼音A对应某一汉字C出现的次数,来确定所述状态转移矩阵和所述发射矩阵。在一些实施例中,训练模块440可以基于所述状态转移矩阵和发射矩阵,获取所述拼音确定模型。训练模块440可以将建模时隐马尔可夫模型的初始化矩阵替换为所述状态转移矩阵和所述发射矩阵,获取矩阵替换后的模型作为拼音确定模型。
应当理解,图4所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上描述,仅为描述方便,并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可以在不背离这一原理的情况下,对实施上述方法和系统的应用领域进行形式和细节上的各种修正和改变。例如,候选拼音确定模块420和目标拼音确定模块430可以集成在一起成为一个模块,同时实现获取输入数据的候选拼音结果并确定目标拼音结果的功能。然而,这些变化和修改不脱离本申请的范围
图5是根据本发明的一些实施例所示的确定汉字拼音的示例性流程图。在一些实施例中,流程500可以通过处理逻辑来执行,该处理逻辑可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(运行在处理设备上以执行硬件模拟的指令)等或其任意组合。图5所示的用于确定多音字拼音注音的流程500中的一个或多个操作可以通过图1所示的汉字注音系统100实现。例如,流程500可以以指令的形式存储在存储设备120中,并由处理引擎112执行调用和/或执行(例如,图2所示的计算设备200的处理器220、图3所示的移动设备300的中央处理器340)。
在510中,可以获取待确定拼音的输入数据。操作510可以由获取模块410执行。在一些实施例中,所述输入数据可以是文本数据、语音数据、图像数据等或其任意组合。所述文本数据包括但不限于一个或一个以上汉字、一个一个或一个以上词语、一个一个或一个以上句子、一段或一端以上文字内容等或其任意组合。所述语音数据包括但不限于单个汉字语音、汉字词句语音、段落语音等或其任意组合。所述图像数据包括包含汉字文本的图像和/或视频。在一些实施例中,当所述输入数据为文本数据时,可以直接用于后续拼音确定过程。当所述输入数据为语音数据时,可以先进行语音识别操作,获取所述语音数据所对应的文字,并基于上述文字对语音数据进行拼音确定。当所述输入数据为图像数据时,可以先进行图像识别操作,确定所述图像数据中存在的文字,并利用识别出的文字对图像数据进行拼音确定。所述语音识别操作和图像识别操作可以通过现有技术实现,在此不在赘述。在一些实施例中,终端140的用户可以通过终端140的输入/输出装置,例如,实体键盘、虚拟键盘、手写屏、摄像头、麦克风、打印机等,向汉字拼音确定系统100发送所述输入数据。输入的方式可以是通过键盘(例如,实体键盘和/或虚拟键盘)输入、通过复制粘贴输入、通过扫描设备扫描输入、通过麦克风语音输入等或其任意组合。
在520中,可以对所述输入结果进行处理,获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值。操作520可以由候选拼音确定模块420执行。在一些实施例中,可以基于拼音确定模型对所述输入结果进行处理。所述拼音确定模型可以是隐马尔可夫模型(Hidden Markov Model,HMM)。汉字拼音确定系统100可以通过分析包含多音字段(多音字和/或多音词语)的语料数据的语言特征(例如,上下文关系、多音字词的词性、多音字读音对应汉字关系、多音字词所在位置、具体语句结构等),建立所述拼音确定模型。所述语料数据可以是包含了文字及其对应的拼音的数据。关于获取所述拼音确定模型的具体描述,可参见本申请图6部分,在此不再赘述。
在一些实施例中,由于所述输入数据可以包含单音字和/或多音字,对于每一个字符(例如,单个字符,包括但不限于汉字字符、数字字符、外文字符、符号字符等),可以有至少一个拼音结果与其对应。将输入数据中每一个字符的拼音结果进行排列组合,可以得到输入数据的候选拼音结果。例如,假定输入数据由三个字符组成,包括字符A、字符B和字符C。其中,三个字符对应的拼音结果分别为a,b和c,a,b和c分别对应字符A、字符B和字符C的拼音读音的个数。则可以获得输入数据的a×b×c个候选拼音结果。在一些实施例中,所述概率值为对应候选拼音结果为所述输入数据的发音的概率。概率值越大,所对应的候选拼音结果为输入数据正确的发音的几率越大。所述拼音确定模型可以获取候选拼音结果中每个字符取某一特定拼音的的概率,并基于上述概率,确定对应与候选拼音结果的概率值。关于获取所述候选拼结果及其对应的概率值的具体描述,可参见本申请图7部分,在此不在赘述。
在530中,可以将概率值最大的候选拼音结果确定为所述输入数据的目标拼音,并输出所述目标拼音。操作530可以由目标拼音确定模块430执行。在一些实施例中,可以保留候选拼音结果中,每个字符对应的拼音中,概率值最大的一个拼音,并将保留下来的拼音按照输入数据中对应的字符的排列顺序排列,获取输入结果的目标拼音。所述目标拼音可以通过网络130输出至服务请求系统140中,并通过显示装置(例如,显示单元320)呈现给用户,或传输至存储设备120进行存储,或传输至下一处理器进行后续处理。
以上内容描述了本申请和/或一些其他的示例。根据上述内容,本申请还可以做出不同的变形。本申请披露的主题能够以不同的形式和例子所实现,并且本申请可以被应用于大量的应用程序中。后文权利要求中所要求保护的所有应用、修饰以及改变都属于本申请的范围。
图6是根据本发明的一些实施例所示的获取拼音确定模型的示例性流程图。在一些实施例中,流程600可以由训练模块440执行。在一些实施例中,流程600可以通过处理逻辑来执行,该处理逻辑可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(运行在处理设备上以执行硬件模拟的指令)等或其任意组合。图6所示的用于获取拼音确定模型的流程600中的一个或多个操作可以通过图1所示的汉字拼音确定系统100实现。例如,流程600可以以指令的形式存储在存储设备120中,并由处理引擎112执行调用和/或执行(例如,图2所示的计算设备200的处理器220、图3所示的移动设备300的中央处理器340)。
在610中,可以获取包含汉字的文本及其对应于所述文本的拼音结果的训练语料,所述训练语料包括了多条由包含汉字的文本及其对应于所述文本的拼音结果组成的语料对。在一些实施例中,所述文本可以包括汉字文本、数字文本、外文文本、符号文本等或其任意组合。例如,所述文本可以是“厦门大学”,也可以是“厦门大学经济学院1号楼”,还可以是“厦门大学建筑学院A栋8层”,也还可以是“厦门大学研究生院2#B栋4层”。所述文本的形式在本申请中不受限制。在一些实施例中,所述文本可以包含多音字段。所述多音字段可以包括字、词、句子、段落、文章等或其任意组合。对应于所述文本的拼音结果可以包括一种或一种以上的拼音。例如,所述文本由单音字组成。所述文本的拼音结果可以有两种或两种以上。例如,所述文本包含多音字词。在一些实施例中,所述数字文本、外文文本、符号文本等对应的拼音结果为其本身,例如,“1”、“B”和“#”对应的拼音结果分别为“1”、“B”和“#”。
在一些实施例中,可以获取点击日志作为训练语料。所述点击日志可以包括终端140的用户输入至终端140的输入信息和用户选择的最终信息。所述输入信息可以是汉字和拼音的组合,例如,输入信息可以是“xia4men2站”。其中,数字表示拼音声调,1表示第一声(阴平),2表示第二声(阳平),3表示第三声(上声),4表示第四声(去声)。所述输入信息也可以是纯拼音,例如,输入信息可以是“xia4men2zhan4”。在获取用户的输入信息,终端140通过词语泛化和/或语义搜索后,可以提供给用户与所述输入信息有关的其他信息选项,例如,“厦门站”、“厦门火车站”、“厦门汽车站”、“厦门高铁北站”等。用户可以从上述选项中选择一个作为最终信息,例如,若用户选择“厦门站”,则“厦门站”可以被指定为所述最终信息。用户的输入信息和选择的最终信息组成了一个语料对。每个语料对中,输入信息中的拼音可以映射到最终信息中的汉字。例如,对于“xia4men2站”以及“厦门站”这一语料对,“xia4”可以与“厦”相互映射,“men2”可以与“门”相互映射。汉字与拼音的映射关系可以通过现有的规则运算(例如,编辑距离算法)获取,在此不再赘述。
在一些实施例中,所述点击日志可以是预设时间段内的点击日志。例如,所述预设时间段可以是一周,一个月,一个季度,半年,一年等。所述点击日志也可以是所有的点击日志。在一些实施例中,训练模块440可以读取存储在存储设备120中的数据以获取所述点击日志。
在620中,可以基于所述训练语料获取所述拼音确定模型的状态转移矩阵和发射矩阵。在一些实施例中,所述状态转移矩阵包含训练语料中全部汉字的拼音组成的集合中,任意一个拼音转移到集合中其他拼音的概率值以及转移到其自身的概率值。参见图8,图8是根据本发明的一些实施例所示的状态转移矩阵的示例性示意图。如图8所示,所述状态转移矩阵利用表格的形式进行了呈现。在表格中,第一行和第一列显示了所述训练语料中的所有拼音。数字表示了从该数字所处行对应的拼音转移到该数字所处列对应的拼音的概率。例如,对于0.35(第二行第三列),它表示拼音“xia4”转移至拼音是“men2”的概率为0.35,也可以说,拼音“xia4”后面是拼音“men2”的概率是0.35。对于0.04(第三行第三列),它表示拼音“men2”转移至拼音是“men2”的概率为0.04,也可以说,拼音“men4”后面是拼音“men2”的概率是0.04。
在一些实施例中,所述发射矩阵包含所述集合中任意一个拼音对应的汉字取训练语料中各汉字的概率值。参见图9,图9是根据本发明的一些实施例所示的发射矩阵的示例性示意图。如图9所示,图中表格表示的是训练语料中拼音“xia4”的发射矩阵。对于某一个特定的拼音,例如“xia4”,可以有多个汉字与其对应,比如,“下”、“夏”、“厦”、“吓”等。在拼音“xia4”的发射矩阵中,数字表示了当拼音“xia4”对应与训练数据中各个特定汉字的概率。例如,0.23(第二行第二列)表示拼音“xia4”对应于训练数据中,汉字为“下”的概率为0.23。0.20(第三行第二列)表示拼音“xia4”对应于训练数据中,汉字为“厦”的概率为0.20。
在一些实施例中,可以通过机器统计训练语料的语料对中,某一个汉字和/或拼音出现的次数,以及某一拼音对应的汉字出现的次数,来确定所述状态转移矩阵和所述发射矩阵。例如,拼音“men2”在训练语料中出现了1000次,在拼音“men2”之前,拼音“xia4”出现了350次,则可以获得从拼音“xia4”转移至拼音“men2”的转移概率是350/1000=0.35。又例如,拼音“xia4”在训练语料中出现了1000次,其中,该拼音对应的汉字为“下”时的次数230次,则可以获得拼音“xia4”到汉字“下”的发射概率是230/1000=0.23。
在630中,可以基于所述状态转移矩阵和发射矩阵,获取所述拼音确定模型。在一些实施例中,可以利用隐马尔可夫模型(HMM)对汉字转拼音进行建模,将该模型的初始化矩阵(例如,状态转移矩阵和发射矩阵)指定为1。在获取训练语料的所述状态转移矩阵和所述发射矩阵后,可以将上述初始化矩阵替换为所述训练语料的状态转移矩阵和发射矩阵。矩阵替换完成的隐马尔可夫模型可以别指定为所述拼音确定模型。
以上内容描述了本申请和/或一些其他的示例。根据上述内容,本申请还可以做出不同的变形。本申请披露的主题能够以不同的形式和例子所实现,并且本申请可以被应用于大量的应用程序中。后文权利要求中所要求保护的所有应用、修饰以及改变都属于本申请的范围。
图7是根据本发明的一些实施例所示获取输入数据的候选拼音结果的示例性流程图。在一些实施例中,流程700可以由候选拼音确定模块430执行。在一些实施例中,流程700可以通过处理逻辑来执行,该处理逻辑可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(运行在处理设备上以执行硬件模拟的指令)等或其任意组合。图7所示的获取输入数据的候选拼音结果流程700中的一个或多个操作可以通过图1所示的汉字拼音确定系统100实现。例如,流程700可以以指令的形式存储在存储设备120中,并由处理引擎112执行调用和/或执行(例如,图2所示的计算设备200的处理器220、图3所示的移动设备300的中央处理器340)。
在710中,可以确定所述输入数据的观察序列。在一些实施例中,所述观察序列是将所述输入数据对应的文本拆分成单个字符后的字符序列。可以通过分词将所述输入数据对应的文本进行拆分获取所述字符序列。例如,对于文本“厦门大学研究生院2#B栋4层”,所述观察序列可以是(“厦”“门”“大”“学”“研”“究”“生”“院”“2”“#”“B”“栋”“4”“层”)。
在720中,可以确定所述观察序列中每个字符的状态序列。在一些实施例中,对于汉字,所述状态序列可以是每个字符对应的拼音的集合。对于数字、外文及符号,所对应的状态序列可以是其本身。例如,对于观察序列(“厦”“门”“大”“学”“研”“究”“生”“院”“2”“#”“B”“栋”“4”“层”),所述状态序列可以是(“厦-xia4、sha4”“门-men2”“大-da4、dai4”“学-xue2”“研-yan2”“究-jiu1”“生-sheng1”“院-yuan4”“2-2”“#-#”“B-B”“栋-dong4”“4-4”“层-ceng2”)。在一些实施例中,所述观察序列和所述状态序列的表现形式可以是任意的,例如,可以用列表的形式呈现。本申请对此不做具体限定。
在730中,可以基于所述状态转移矩阵以及所述发射矩阵确定所述观察序列中每个汉字字符取其状态序列中不同拼音的概率值,得到所述输入数据的至少一种候选拼音结果及其对应的概率值。在一些实施例中,所述拼音确定模型可以基于所述状态转移矩阵以及所述发射矩阵进行演算,确定所述观察序列中每个汉字字符取其状态序列中不同拼音的概率值。上述概率值通过将某一拼音对应的状态转移概率与发射概率相乘的方式获取。例如,对于多音字段“大”的两个拼音“da4”和“dai4”,可以从状态转移矩阵中确定上一个字段“融”的拼音“rong2”分别转移到拼音“da4”和“dai4”的概率,假定为m和o。同时可以从发射矩阵中获取拼音“da4”和“dai4”对应与汉字“大”的发射概率,假定为n和p。则拼音“da4”和“dai4”的概率值分别是r×m×n和r×o×p,r为事先预测出的“融”的拼音为“rong2”的概率。
在一些实施例中,由于输入数据中多音字段的存在,则单音字段与多音字段相连接时,可以出现两种或两种以上的连接选择,即,可以出现两种或两种以上的拼音路径。例如,对于分词后的输入数据“金/融/大/厦农/业/银/行”,由于多音字段“大”、“厦”以及“行”对应的拼音分别有2、2以及5种,则所述输入数据的拼音路径可以有2×2×5=20种。所有的拼音路径可以被指定为输入数据的候选拼音结果。在一些实施例中,所述概率值可以是对应的候选拼音结果为输入数据的拼音的概率。例如,输入数据“金/融/大/厦农/业/银/行”的一个候选拼音结果“jin1/rong2/da4/xia4/nong2/ye4/yin2/xing2”的概率值为0.18,则该候选拼音结果为输入数据转拼音后的拼音的概率为18%。在一些实施例中,可以保留每个汉字字符的状态序列中概率值最大的拼音,并将保留下的拼音作为所述输入数据的目标拼音。例如,对于多音字段“大”、“厦”和“行”,可以分别保留对应的概率值最大的拼音,即,分别从“da4”和“dai4”、“xia4”和“sha4”,以及“xing2、hang2、xing4、heng4、hang4”中,选取概率值最大的拼音,并与单音字段的字符对应的拼音组合,得到输入数据的目标拼音。
参见图10,图10是根据本发明的一些实施例所示的输入数据的状态序列、候选拼音结果以及目标拼音结果的示例性示意图。如图所示,BOS可以表示算法流程开始。每个汉字字符可以被指定为一个结点。所有结点组成了输入数据“金融大厦农业银行”的观察序列。对于每一个结点,都有至少一个拼音与其对应。所述拼音组成了该结点的状态序列。例如,“金-jin1”,“厦-xia4、sha4”、“行-xing2、hang2、xing4、heng4、hang4”。图中,相邻结点对应的拼音之间的箭头表示了从一个拼音转移到另外一个拼音。拼音的转移之间,可以有一个转移概率,该转移概率值以基于所述状态转移矩阵获取。例如,从拼音“da4”到拼音“sha4”的转移概率为0.17(基于图8所示状态转移矩阵获取)。拼音到结点(字符)之间,可以有一个发射概率,该发射概率可以基于所述发射矩阵获取。例如,拼音“xia4”到汉字“厦”的发射概率为0.20(基于图9所示发射矩阵获取)。从起始结点(例如,结点“金”)到结束结点(例如,结点“行”)之间,所有的拼音之间的不同的连接走向构成了输入数据的不同的候选拼音结果。基于每个拼音的概率值,可以获取一条总概率值最大的候选拼音结果,在图中以虚线箭头表示,例如,保留每个字符对应的拼音中,概率值最大的拼音。拼音确定模型可以将该候选拼音结果作为目标拼音结果,直接输出。
需要注意的是,以上描述,仅为描述方便,并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可以在不背离这一原理的情况下,对实施上述方法和系统的应用领域进行形式和细节上的各种修正和改变。
与现有技术相比,本申请以上各实施例可能带来的有益效果包括但不限于:
(1)、避免了常用汉字转拼音算法中词典未覆盖的多音词语问题;
(2)、可以根据实际上下文语境选择合适的多音字拼音。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
以上内容描述了本申请和/或一些其他的示例。根据上述内容,本申请还可以做出不同的变形。本申请披露的主题能够以不同的形式和例子所实现,并且本申请可以被应用于大量的应用程序中。后文权利要求中所要求保护的所有应用、修饰以及改变都属于本申请的范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
本领域技术人员能够理解,本申请所披露的内容可以出现多种变型和改进。例如,以上所描述的不同系统组件都是通过硬件设备所实现的,但是也可能只通过软件的解决方案得以实现。例如:在现有的服务器上安装系统。此外,这里所披露的位置信息的提供可能是通过一个固件、固件/软件的组合、固件/硬件的组合或硬件/固件/软件的组合得以实现。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信能够将软件从一个计算机设备或处理器加载到另一个。例如:从汉字拼音确定系统的一个管理服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供订单拼成率预测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,例如,局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述属性、数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档、物件等,特将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不限于本申请明确介绍和描述的实施例。

Claims (10)

1.一种确定汉字拼音的方法,其特征在于,包括:
获取待确定拼音的输入数据;
处理器对所述输入数据进行处理,获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,所述概率值为对应候选拼音结果为所述输入数据的发音的概率;以及
处理器将概率值最大的候选拼音结果确定为所述输入数据的目标拼音,并输出所述目标拼音。
2.根据权利要求1所述的一种确定汉字拼音的方法,其特征在于,所述处理器对所述输入数据进行处理,得到所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值包括:
处理器基于状态转移矩阵及发射矩阵确定所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值;其中,
所述状态转移矩阵包含训练语料中全部汉字的拼音组成的集合中,任意一个拼音转移到集合中其他拼音的概率值以及转移到其自身的概率值;
所述发射矩阵包含所述集合中任意一个拼音对应的汉字取训练语料中各汉字的概率值;
所述训练语料包括多条由含有汉字的文本及其对应的拼音组成的语料对。
3.根据权利要求2所述的一种确定汉字拼音的方法,其特征在于,所述处理器基于状态转移矩阵及发射矩阵确定所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,包括:
确定所述输入数据的观察序列;所述观察序列是将所述输入数据对应的文本拆分成单个字符后的字符序列;
确定所述观察序列中每个字符的状态序列;其中,汉字字符的状态序列包含该汉字的全部拼音,数字字符、字母字符与符号字符的状态序列均为其本身;
基于所述状态转移矩阵以及所述发射矩阵确定所述观察序列中每个汉字字符取其状态序列中不同拼音的概率值,得到所述输入数据的至少一种候选拼音结果及其对应的概率值。
4.根据权利要求1所述的一种确定汉字拼音的方法,其特征在于,所述处理器将概率值最大的候选拼音结果确定为所述输入数据的目标拼音包括:保留所述观察序列中每个汉字字符的状态序列中概率值最大的拼音,得到所述输入数据的目标拼音。
5.一种确定汉字拼音的系统,其特征在于,包括获取模块,候选拼音确定模块和目标拼音确定模块,其中,
所述获取模块,用于获取待确定拼音的输入数据;
所述候选拼音确定模块,对所述输入数据进行处理,获取所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值,所述概率值为对应候选拼音结果为所述输入数据的发音的概率;
所述目标拼音确定模块,用于将概率值最大的候选拼音结果确定为所述输入数据的目标拼音。
6.根据权利要求5所述的确定汉字拼音的系统,其特征在于,所述候选拼音确定模块还用于:
基于状态转移矩阵及发射矩阵确定所述输入数据的至少一种候选拼音结果,以及每一种候选拼音结果对应的概率值;其中,
所述状态转移矩阵包含训练语料中全部汉字的拼音组成的集合中,任意一个拼音转移到集合中其他拼音的概率值以及转移到其自身的概率值;
所述发射矩阵包含所述集合中任意一个拼音对应的汉字取训练语料中各汉字的概率值;
所述训练语料包括多条由含有汉字的文本及其对应的拼音组成的语料对。
7.根据权利要求5所述的一种确定汉字拼音的系统,其特征在于,所述候选拼音确定模块还用于:
确定所述输入数据的观察序列;所述观察序列是将所述输入数据对应的文本拆分成单个字符后的字符序列;
确定所述观察序列中每个字符的状态序列;其中,汉字字符的状态序列包含该汉字的全部拼音,数字字符、字母字符与符号字符的状态序列均为其本身;
基于所述状态转移矩阵以及所述发射矩阵确定所述观察序列中每个汉字字符取其状态序列中不同拼音的概率值,得到所述输入数据的至少一种候选拼音结果及其对应的概率值。
8.根据权利要求5所述的一种确定汉字拼音的系统,其特征在于,所述目标拼音确定模块还用于:
保留所述观察序列中每个汉字字符的状态序列中概率值最大的拼音,得到所述输入数据的目标拼音。
9.一种确定汉字拼音的装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1~4中任意一项所述的操作。
10.一种计算机可存储介质,其特征在于,所述存储介质存储有计算机指令,当所述计算机指令中的至少部分指令被处理器执行时,实现如权利要求1~4中任意一项所述的操作。
CN201811312773.8A 2018-11-06 2018-11-06 一种确定汉字拼音的方法、系统、装置及存储介质 Active CN111142681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811312773.8A CN111142681B (zh) 2018-11-06 2018-11-06 一种确定汉字拼音的方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811312773.8A CN111142681B (zh) 2018-11-06 2018-11-06 一种确定汉字拼音的方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111142681A true CN111142681A (zh) 2020-05-12
CN111142681B CN111142681B (zh) 2023-11-03

Family

ID=70515937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811312773.8A Active CN111142681B (zh) 2018-11-06 2018-11-06 一种确定汉字拼音的方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111142681B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340574A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险用户的识别方法、装置和电子设备
CN111768765A (zh) * 2020-07-30 2020-10-13 华为技术有限公司 语言模型生成方法和电子设备
CN111967248A (zh) * 2020-07-09 2020-11-20 深圳价值在线信息科技股份有限公司 拼音识别方法、装置、终端设备及计算机可读存储介质
CN113593566A (zh) * 2021-06-08 2021-11-02 深圳双猴科技有限公司 语音识别处理方法及系统
CN113688613A (zh) * 2020-05-19 2021-11-23 阿里巴巴集团控股有限公司 一种字段注释生成、字符串理解方法、设备及存储介质
CN113963681A (zh) * 2021-10-22 2022-01-21 平安科技(深圳)有限公司 基于文本编辑器的语音合成方法、系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929864A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种音字转换方法及装置
US20140046662A1 (en) * 2012-08-07 2014-02-13 Interactive Intelligence, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929864A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种音字转换方法及装置
US20140046662A1 (en) * 2012-08-07 2014-02-13 Interactive Intelligence, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340574A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险用户的识别方法、装置和电子设备
CN113688613A (zh) * 2020-05-19 2021-11-23 阿里巴巴集团控股有限公司 一种字段注释生成、字符串理解方法、设备及存储介质
CN111967248A (zh) * 2020-07-09 2020-11-20 深圳价值在线信息科技股份有限公司 拼音识别方法、装置、终端设备及计算机可读存储介质
CN111768765A (zh) * 2020-07-30 2020-10-13 华为技术有限公司 语言模型生成方法和电子设备
CN111768765B (zh) * 2020-07-30 2022-08-19 华为技术有限公司 语言模型生成方法和电子设备
CN113593566A (zh) * 2021-06-08 2021-11-02 深圳双猴科技有限公司 语音识别处理方法及系统
CN113963681A (zh) * 2021-10-22 2022-01-21 平安科技(深圳)有限公司 基于文本编辑器的语音合成方法、系统和存储介质

Also Published As

Publication number Publication date
CN111142681B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111142681B (zh) 一种确定汉字拼音的方法、系统、装置及存储介质
WO2022007823A1 (zh) 一种文本数据处理方法及装置
EP3549069B1 (en) Neural network data entry system
US11862143B2 (en) Systems and methods for processing speech dialogues
US10832658B2 (en) Quantized dialog language model for dialog systems
CN111066082B (zh) 一种语音识别系统和方法
CN110298019A (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
WO2019226954A1 (en) Training sequence generation neural networks using quality scores
WO2022001724A1 (zh) 一种数据处理方法及装置
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
CN112580339B (zh) 模型的训练方法、装置、电子设备及存储介质
US10963647B2 (en) Predicting probability of occurrence of a string using sequence of vectors
WO2019015633A1 (en) SYSTEMS AND METHODS FOR PROCESSING A CONVERSATION MESSAGE
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
JP2022106980A (ja) クエリ文の生成方法、装置、電子機器及び記憶媒体
CN111460117A (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
CN112507705B (zh) 一种位置编码的生成方法、装置及电子设备
Egorova et al. Modeling the distribution and modification of writing in proto-Chinese language communities
KR20230088455A (ko) 시퀀스 레벨 방출 정규화를 통한 고속 방출 저-레이턴시 스트리밍 asr
CN108874786B (zh) 机器翻译方法及装置
JP7327647B2 (ja) 発話生成装置、発話生成方法、プログラム
JP2024512607A (ja) 単語のセグメント化を正則化すること
CN115114939A (zh) 翻译模型的训练方法、语句翻译方法、装置、设备、程序
CN105683873A (zh) 容错输入法编辑器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment
TG01 Patent term adjustment