CN114327090A - 日文输入方法以及相关装置、设备 - Google Patents

日文输入方法以及相关装置、设备 Download PDF

Info

Publication number
CN114327090A
CN114327090A CN202111666617.3A CN202111666617A CN114327090A CN 114327090 A CN114327090 A CN 114327090A CN 202111666617 A CN202111666617 A CN 202111666617A CN 114327090 A CN114327090 A CN 114327090A
Authority
CN
China
Prior art keywords
japanese
phonetic notation
notation data
whole sentence
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111666617.3A
Other languages
English (en)
Inventor
周锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Kexun Information Technology Co ltd
Original Assignee
Jilin Kexun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Kexun Information Technology Co ltd filed Critical Jilin Kexun Information Technology Co ltd
Priority to CN202111666617.3A priority Critical patent/CN114327090A/zh
Publication of CN114327090A publication Critical patent/CN114327090A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了日文输入方法以及相关装置、设备,其中,日文输入方法包括:获取到用户输入的整句日文注音数据;对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据;基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率;基于组合概率将各日文整句依次进行排序后输出;其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的。上述方案,能够提高日文输入效率。

Description

日文输入方法以及相关装置、设备
技术领域
本申请涉及语言输入的技术领域,特别是涉及日文输入方法以及相关装置、设备。
背景技术
日文是日本使用的语言,日本有一亿多人口,人数众多,在手机、平板电脑等终端上输入日文是刚需,由此诞生日文输入法。
目前的日文输入方法基于由平假名、片假名、日文汉字构成的日文词汇,按照其罗马字拼读中的字母在手机键位对应的数字进行编码,并依照词汇使用频率的高低排序,在依次输入所需日语单字的各个罗马字母对应的数字键后,提示出若干符合所需日文形态的单字供选择。
当前的日文输入方法大多是词语输入,一次只能输入一个词条,输入效率较低。
发明内容
本申请提供了日文输入方法以及相关装置、设备,以解决现有技术中存在的日文输入方法的输入效率较低的问题。
本申请提供了一种日文输入方法,包括:获取到用户输入的整句日文注音数据;对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据;基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率;基于组合概率将各日文整句依次进行排序后输出;其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的。
其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的,包括:获取到多个日文整句样本,并获取到各日文整句样本中各词组和/或各单字的注音数据;对各词组的注音数据进行音节切分,得到各词组中各个字的注音数据,并综合各词组中各个字的注音数据以及各单字的注音数据得到各日文整句样本中各个字的注音数据;利用各日文整句样本、日文整句样本中各个字的注音数据和对应的字构建音字转换网络。
其中,获取到多个日文整句样本,并获取到各日文整句样本中各词组和/或各单字的注音数据的步骤包括:获取到多个日文整句样本,分别对各日文整句样本进行分词,得到各日文整句样本的词组和/或单字;基于日文词语与注音规范确定各日文整句样本中各词组和/或各单字的注音数据。
其中,获取到多个日文整句样本,并分别对各日文整句样本进行分词,得到各日文整句样本的词组和/或单字的步骤包括:将各日文整句样本作为待分词的日文整句样本;将待分词的日文整句样本的第一个字作为词首,并按照待分词的日文整句样本中各字的排列顺序从后往前依次将各字作为词尾,直至词首与词尾组成的词组符合日文词语与注音规范,得到一个词组/或单字以及剩余日文整句样本;将剩余日文整句样本作为待分词的日文整句样本再次进行分词,直至各日文整句样本的分词完成,得到各日文整句样本的单字和/或词组。
其中,利用各日文整句样本以及日文整句样本中各个字的注音数据构建音字转换网络的步骤包括:基于各日文整句样本以及各日文整句样本的词组和/或单字训练日文语言模型;将日文整句样本中各个字的注音数据与各日文整句样本内各个字建立对应关系,基于对应关系以及日文语言模型利用加权有限状态转换器构建音字转换网络。
其中,对各词组的注音数据进行音节切分,得到各词组中各个字的注音数据的步骤包括:响应于词组的注音数据不能基于日文词语与注音规范进行音节切分;基于词组中的目标字截取词组的注音数据中的部分注音数据,并基于日文词语与注音规范判断词组的注音数据中剩余的注音数据是否为词组中的除目标字以外的字的注音数据;如果剩余的注音数据为词组中的除目标字以外的字的注音数据,则将部分注音数据确定为目标字的注音数据,以得到词组中各个字的注音数据。
其中,基于词组中的目标字截取词组的注音数据中的部分注音数据的步骤包括:响应于目标字位于词组的词首,按照词组的注音数据的排列顺序从前往后依次递增截取词组的注音数据中的部分注音数据;响应于目标字位于词组的词中,词组中存在第一数量个字位于目标字之前,以及存在第二数量个字位于目标字之后,词组的注音数据的长度为第三数量,则在词组的注音数据的预设注音范围内依次递增截取词组的注音数据中的部分注音数据;其中,预设注音范围为词组的注音数据中第四个注音数据到第五数量个注音数据,第四数量为第一数量加1,第五数量为第三数量与第二数量之间的差值;响应于目标字位于词组的词尾,按照词组的注音数据的排列顺序从后往前依次递增截取词组的注音数据中的部分注音数据。
其中,基于词组中的目标字截取词组的注音数据中的部分注音数据的步骤还包括:按照词组中各个字的排列顺序依次将各个字确定目标字,直至确定词组中各个字的注音数据。
其中,基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率的步骤包括:基于音字转换网络对各单字的注音数据进行文字转换,得到至少一个单字和/或词组以及至少一个单字和/或词组之间的排列概率;按照至少一个单字和/或词组之间的排列概率对至少一个单字和/或词组进行排序,得到至少一个日文整句以及各日文整句的组合概率。
本申请还提供了一种日文输入装置,包括:获取模块,用于获取到用户输入的整句日文注音数据;音节切分模块,用于对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据;转换模块,用于基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率;排序模块,用于基于组合概率将各转换后的日文整句依次进行排序后输出;其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的。
本申请还提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一项的日文输入方法。
本申请还提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一项的日文输入方法。
上述方案,本申请通过先对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据,再基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率,最后基于组合概率将各日文整句依次进行排序后输出,以完成日语输入。本实施例通过先将整句日文注音数据划分为各个字对应的注音数据,再利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到音字转换网络对其进行转换,得到完整的日文语句,从而实现完整的日文语句的输入,进而提高日文输入效率。
附图说明
图1是本申请日文输入方法一实施例的流程示意图;
图2是本申请日文输入方法另一实施例的流程示意图;
图3是图2实施例中构建音字转换网络一实施例的流程示意图;
图4是本申请日文输入装置一实施例的结构示意图;
图5是本申请电子设备一实施例的框架示意图;
图6为本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,可以存在三种关系,例如,A和/或B,可以:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般前后关联对象是一种“或”的关系。此外,本文中的“多”两个或者多于两个。
请参阅图1,图1是本申请日文输入方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S11:获取到用户输入的整句日文注音数据。
获取到用户输入的整句日文注音数据,其中,日文的注音数据包括罗马音以及平假名,而日文的字包括平假名、片假名以及汉字。本实施例获取到用户输入的由罗马音和/或平假名组成的日文注音数据后,将其转换为由平假名、片假名和/或汉字组成的整句的日文语句进行输出。
其中,整句日文注音数据指的是一句完整的日文语句对应的读音数据。例如:日文语句为“針金でしばる”,其中文意思为“用铁丝捆上”,则其对应的整句日文注音数据则为“はりがねでしばる”。
步骤S12:对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。
获取到整句日文注音数据后,对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。音节切分是将输入的整个罗马音和/或平假名的注音数据切分为各单字的注音。例如:输入平假名的整句日文注音数据“はりがねでしばる”,经过音节切分结果为“はりがねでしばる”,其中,“はり”、“がね”、“で”、“し”、“ば”、“る”分别对应一个单字的读音。各单字的注音数据之间可以用空格或其他特殊符号划分。
在一个具体的应用场景中,可以基于日文词语与注音规范对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。其中,日文词语与注音规范是基于日文词典确定的,即日文语言的官方用语规范。日文词典中包括日文的各个字词以及各字词对应的注音。在另一个具体的应用场景中,也可以通过构建的音字转换网络对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。
步骤S13:基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率。
获取到整句日文注音数据中各单字的注音数据后,基于各单字的注音数据利用音字转换网络进行转换,得到转换后对应的至少一个日文整句以及各日文整句的组合概率。
其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的。其能够将各个字的注音数据转换成对应的字,再将各个字组合成整句的日文整句。
因此,音字转换网络能够基于各单字的注音数据进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率。在一个具体的应用场景中,音字转换网络可以基于各单字的注音数据进行转换,得到注音数据对应的各个单字,再将各个单字组合成日文整句,其中,由于存在一个音对应多个字的情况,则整句日文注音数据也存在对应不同的日文整句的可能,因此,在将各个单字组合成日文整句的过程中,会将各个单字至少组合成一个日文整句,并确定至少一个日文整句之间的组合概率。
在一个具体的应用场景中,可以基于用户的用语习惯来确定基于相同的整句日文注音数据转换得到的至少一个日文整句之间的组合概率。在另一个具体的应用场景中,也可以利用至少一个日文整句在音字转换网络构建过程中所使用的多个日文整句样本中的出现频率,来确定各日文整句之间的组合概率。
步骤S14:基于组合概率将各日文整句依次进行排序后输出。
得到至少一个日文整句及其组合概率后,基于组合概率将各日文整句依次进行排序后输出。具体地,可以基于组合概率的大小,将至少一个日文整句按照概率从大到小的顺序依次进行排序后输出,以供用户进行选择,完成日文的整句输入,也可以在组合概率的基础上考虑用户习惯后,将各日文整句排序后依次进行输出。
通过上述步骤,本实施例的日文输入方法通过先对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据,再基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率,最后基于组合概率将各日文整句依次进行排序后输出,以完成日语输入。本实施例通过先将整句日文注音数据划分为各个字对应的注音数据,再利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到音字转换网络对其进行转换,得到完整的日文语句,从而实现完整的日文语句的输入,进而提高日文输入效率。
请参阅图2,图2是本申请日文输入方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S21:获取到用户输入的整句日文注音数据。
获取到用户输入的整句日文注音数据。在一个具体的应用场景中,可以接受用户通过罗马音键盘和/或平假名键盘输入的整句日文注音数据。
步骤S22:对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。
获取到整句日文注音数据后,对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。
在一个具体的应用场景中,可以通过构建的音字转换网络对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据。在其他应用场景中,也可以通过其他音节切分方法对整句日文注音数据进行音节切分。在此不做限定。
请参阅图3,图3是图2实施例中构建音字转换网络一实施例的流程示意图。
步骤S31:获取到多个日文整句样本,并获取到各日文整句样本中各词组和/或各单字的注音数据。
先获取到多个日文整句样本。具体地,可以通过网络爬虫等工具收集大量日文的完整句子;也可以通过从大量的电子书籍中获取大量的日文的完整句子,具体地获取方式在此不做限定。
再获取到各日文整句样本中各词组和/或各单字的注音数据,具体地可以基于日文词语与注音规范,即日文词典确定各日文整句样本中各词组和/或各单字的注音数据。
在一个具体的应用场景中,可以在获取到多个日文整句样本后,分别对各日文整句样本进行分词,得到各日文整句样本的词组和/或单字,再基于日文词语与注音规范确定各日文整句样本中各词组和/或各单字的注音数据。
其中,分词步骤包括:将各日文整句样本作为待分词的日文整句样本,再将待分词的日文整句样本的第一个字作为词首,并按照待分词的日文整句样本中各字的排列顺序从后往前依次将各字作为词尾,直至词首与词尾组成的词组符合日文词语与注音规范,得到一个词组/或单字以及剩余日文整句样本。例如:当待分词的日文整句样本为“針金でしばる”,则以第一个字“針”为词首,按照“針金でしばる”的顺序,从后往前先将最后一个字“る”作为词尾,基于日文词语与注音规范判断“針”与“る”之间组成的词“針金でしばる”是否为一个词,当不是时,再从后往前将“ば”作为词尾进行判断,直至判断到“針金”为符合日文词语与注音规范的一个词,此时得到一个词“針金”,以及剩余的日文整句样本“でしばる”。
然后将剩余日文整句样本作为待分词的日文整句样本再次进行分词,直至各日文整句样本的分词完成,得到各日文整句样本的单字和/或词组。例如:将上述剩余的日文整句样本“でしばる”作为待分词的日文整句样本再次进行分词,以待分词的日文整句样本中的第一个字“で”作为词首,按照排列顺序将最后一个字“る”作为词尾,基于日文词语与注音规范判断“で”与“る”之间组成的词“でしばる”是否为一个词,当不是时,再从后往前将“ば”作为词尾进行判断,直至判断到“で”为符合日文词语与注音规范的一个词,依次类推直至得到各日文整句样本的单字和/或词组,即“針金でしばる”。
上述分词方式能够提高分词的准确率,避免长度短的词对长度长的词产生干扰。
在其他应用场景中,也可以通过其他分词方式获取到各日文整句样本中各词组和/或各单字及其注音数据,在此不做限定。
在一个具体的应用场景中,当确定了各日文整句样本的单字和/或词组后,可以利用srilm工具(Stanford Research Institute Language Modeling Toolkit)基于各日文整句样本及其各单字和/或词组进行训练,得到日文语言模型,其中,日文语言模型的输入为各日文整句样本的单字和/或词组,输出为单字和/或词组之间的整句组合类型以及组合概率。其中,单字和/或词组之间的组合概率可以通过ARPA格式输出。例如:当单字和/词组对应的日文整句样本为“針金でしばる”时,其组合概率为:
“\data
ngram 1=nr#number of unigrams
ngram 2=nr#number of bigrams
\1-grams:
p1針金bow1
\2-grams:
p2針金で
p3でしばる
\end\”
其中p1表示“針金”出现的概率,p2表示在“針金”之后出现“で”的概率,同理p3表示在“で”之后出现“しばる”的概率。
本实施例的日文语言模型可以确定日文整句中各单字和/或词组之间的排列概率,进而得到对应的各日文整句的组合概率。
步骤S32:对各词组的注音数据进行音节切分,得到各词组中各个字的注音数据,并综合各词组中各个字的注音数据以及各单字的注音数据得到各日文整句样本中各个字的注音数据。
获取到各日文整句样本中的各词组和/或各单字及其注音数据后,考虑到日文词典所对应的日文词语与注音规范中词组所对应的注音数据并未分配到词组中各个字上,则本步骤对各词组的注音数据进行音节切分,通过音节切分,将词组的注音数据分到词组中的每一个字,从而得到各词组中各个字的注音数据。最后综合各词组中各个字的注音数据以及各单字的注音数据得到各日文整句样本中各个字的注音数据。
在一个具体的实施方式中,由于日文本身存在清浊音变换、连读、训读、命令性变换等多种语法,则在日文整句样本中各词组中各个字的注音数据可能与日语词典中所标注的注音数据不同,因此,可能存在词组的注音数据不能基于日文词语与注音规范进行音节切分的情况。例如:“針金”的注音数据“はりがね”音节拆分后的结果为“はり”和“がね”,其中,“はり”为“針”的读音,“がね”为“金”的读音。但在日语词典中,“金”的读音为“かね”,其在“針金”这个词组中发生了浊化,因此,无法直接基于日文词语与注音规范确定“金”的音。
则响应于词组的注音数据不能基于日文词语与注音规范进行音节切分,说明该词组中的存在字产生了注音的变化。则基于词组中的目标字截取词组的注音数据中的部分注音数据,并基于日文词语与注音规范判断词组的注音数据中剩余的注音数据是否为词组中的除目标字以外的注音数据;如果剩余的注音数据为词组中的除目标字以外的字的注音数据,则将部分注音数据确定为目标字的注音数据,以得到词组中各个字的注音数据。
其中,目标字的确定方法为:按照词组中各个字的排列顺序依次将各个字确定目标字,直至确定词组中各个字的注音数据。具体地,可以按照词组中各个字的排列顺序从前往后依次将各个字确定目标字,也可以按照词组中各个字的排列顺序从后往前依次将各个字确定目标字。例如:“針金”这个词中,按照先后排列顺序可以先将“針”作为目标字,并基于“針”截取“針金”对应的注音数据中的部分注音数据,并基于日文词语与注音规范判断“針金”对应的注音数据中剩余的注音数据是否为词组中的除目标字以外的注音数据,如果不为,则再按照先后排列顺序将“金”作为目标字进行上述判断,直至确定“針金”中各个字的注音数据。
在一个具体的实施方式中,基于词组中的目标字截取词组的注音数据中的部分注音数据的步骤具体包括:
响应于目标字位于词组的词首,按照词组的注音数据的排列顺序从前往后依次递增截取词组的注音数据中的部分注音数据。
响应于目标字位于词组的词中,词组中存在第一数量个字位于目标字之前,以及存在第二数量个字位于目标字之后,词组的注音数据的长度为第三数量,则在词组的注音数据的预设注音范围内依次递增截取词组的注音数据中的部分注音数据;其中,预设注音范围为词组的注音数据中第四个注音数据到第五数量个注音数据,第四数量为第一数量加1,第五数量为第三数量与第二数量之间的差值。
在一个具体的应用场景中,当目标字位于词组的词中,其前面有m个字,后面有n个字,假设注音数据的总长度为k,那么从m+i个拼音向后依次递增截取部分注音数据,i取值范围为(1,k-m-n),最大截取到k-n,并将截取到的部分注音数据分配给目标字,判断前m+i-1个注音数据是否是前m个字对应的注音数据,以及判断尾部未被截取的注音数据是否是后n个字对应的注音数据,如果均是,那么将截取的部分注音数据赋予目标字,而截取的部分注音数据前面的注音数据和截的部分注音数据取后面的注音数据分别按词组的排列分配给目标字的前m个字和后n个字,从而得到词组中各个字的注音数据。
响应于目标字位于词组的词尾,按照词组的注音数据的排列顺序从后往前依次递增截取词组的注音数据中的部分注音数据。
在一个具体的应用场景中,“針金”的注音数据为“はりがね”,假设目标字为“金”,其位于词尾,则按照注音数据的排列顺序从后往前,先将“ね”分配给“金”,看注音数据剩余部分“はりが”是否是“針”的音,如果不是,再进行递增,将“がね”分配给“金”,看注音数据剩余部分“はり”是否是“針”的音,结果是的,那么“金”增加一个音“がね”,“針金”的读音“はりがね”拆分为“はりがね”。
其中,步骤S22中对整句日文注音数据进行音节切分的方法也可以采用上述截取部分注音数据的方法进行切分。
本步骤中获得各个字的注音数据,并利用各个字的注音数据构建的音字转换网络能够使得音字转换网络能够将整句日文注音数据划分为各个字的注音数据。
通过上述方式得到各个字的注音数据后,当某个字存在不同的注音数据时,可以对字采取不同的特殊符号进行标记,从而区分不同的注音数据,便于音字转换网络进行音字转换。例如“がね”和“かね”都为“金”的音,则获得“針金”的字后,在该词中,“金”读“がね”吗,则“針金”会被注音为“針金#1”,表示“針金#1”中“金”的读音为“がね”,和本身读音“かね”进行区分。
步骤S33:利用各日文整句样本、日文整句样本中各个字的注音数据和对应的字构建音字转换网络。
利用各日文整句样本、日文整句样本中各个字的注音数据和对应的字构建音字转换网络。
在一个具体的应用场景中,当获取到日文整句样本中各个字的注音数据和对应的字后,可以将日文整句样本中各个字的注音数据和对应的字与步骤S31中的日文语言模型进行融合,从而构建音字转换网络。从而获得能够将整句日文注音数据切分为各个字对应的注音数据,再将各个字对应的注音数据转换为对应的字,最后将字组合成词组以及日文整句的音字转换网络。
在一个具体的实施方式中,可以基于各日文整句样本以及各日文整句样本中的单字和/或词组确定各日文整句样本的组合概率;再将日文整句样本中各个字的注音数据与各日文整句样本内各个字建立对应关系,基于对应关系、各日文整句样本以及各日文整句样本的组合概率利用加权有限状态转换器(wfst网络)构建音字转换网络。
其中,wfst网络由结点和弧组成,结点表示状态,弧上有三个部分:输入音节、输出字符、分数,由于弧上输出字符的数量为1,则本实施例基于日文整句样本中各个字的注音数据与各日文整句样本内各个字利用加权有限状态转换器(wfst网络)构建音字转换网络能够匹配wfst网络的结构特点,实现音字转换网络的构建。
在一个具体的应用场景中,可以基于各日文整句样本确定各日文整句样本中的单字和/或词组之间的排列概率,再基于各日文整句样本中的单字和/或词组之间的排列概率确定各日文整句样本对应的日文整句样本的组合概率。
构建完成的音字转换网络具备音节切分和音字转换功能。
步骤S23:基于音字转换网络对各单字的注音数据进行文字转换,得到至少一个单字和/或词组以及至少一个单字和/或词组之间的排列概率,按照至少一个单字和/或词组之间的排列概率对至少一个单字和/或词组进行排序,得到至少一个日文整句以及各日文整句的组合概率。
得到整句日文注音数据中各单字的注音数据后,基于音字转换网络对各单字的注音数据进行文字转换,得到至少一个单字和/或词组以及至少一个单字和/或词组之间的排列概率,按照至少一个单字和/或词组之间的排列概率对至少一个单字和/或词组进行排序,得到至少一个日文整句以及各日文整句的组合概率。
具体地,基于音字转换网络中各日文整句样本的类型和数量确定各日文整句中的单字和/或词组之间的排列概率,再基于各日文整句中的单字和/或词组之间的排列概率确定各日文整句对应的日文整句的组合概率。其中,可以将排列概率最大的单字和/或词组进行组合,得到日文整句。
步骤S24:基于组合概率将各日文整句依次进行排序后输出。
得到至少一个日文整句及其组合概率后,基于组合概率将各日文整句依次进行排序后输出。具体地,可以基于组合概率的大小,将至少一个日文整句按照概率从大到小的顺序依次进行排序后输出,以供用户进行选择,完成日文的整句输入。
在一个具体的应用场景中,当用户输入平假名拼音“はりがねでしばる”,经过音节切分结果为“はりがねでしばる”,根据音节切分,通过音字转换网络进行转换,得到“針金でしばる”,其排列概率分别为0、p1、p2、0、0、p3,则组合概率为“0+p1+p2+0+0+p3”,其中,第一个排列概率0的含义为はり后面为がね的概率,由于“針金”为一个完整的词,不存在其他组合方式,则はり后面为がね的概率设置为0,后续0的设置以及排列概率的含义与此类似,不再赘述,至此,通过以上方式,可以实现整句日文的输入。
通过上述步骤,本实施例的日文输入方法能够基于日文的语言特点训练具备音节切分和音字转换功能的音字转换网络,并通过基于目标字截取词组中部分注音数据来判断目标字的注音数据的方法规避日文语法变换给注音数据带来的影响,从而从语句本身确定各个字的注音数据,从而实现各个字与对应的注音数据之间的对应,实现单字的字音转换。且本实施例还通过将各日文整句样本作为待分词的日文整句样本,再将待分词的日文整句样本的第一个字作为词首,并按照待分词的日文整句样本中各字的排列顺序从后往前依次将各字作为词尾,直至分词成功的方式进行分词,能够提高分词的准确率,避免长度短的词对长度长的词产生干扰。本实施例利用音字转换网络对用户输入的整句日文注音数据进行转换,得到完整的日文语句,从而实现完整的日文语句的输入,进而提高日文输入效率。
请参阅图4,图4是本申请日文输入装置一实施例的结构示意图。
本实施例的日文输入装置40包括:获取模块41、音节切分模块42、转换模块43以及排序模块44。获取模块41用于获取到用户输入的整句日文注音数据;音节切分模块42用于对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据;转换模块43用于基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率;排序模块44,用于基于组合概率将各转换后的日文整句依次进行排序后输出。
获取模块41还用于获取到多个日文整句样本,并获取到各日文整句样本中各词组和/或各单字的注音数据;对各词组的注音数据进行音节切分,得到各词组中各个字的注音数据,并综合各词组中各个字的注音数据以及各单字的注音数据得到各日文整句样本中各个字的注音数据;利用各日文整句样本、日文整句样本中各个字的注音数据和对应的字构建音字转换网络。
获取模块41还用于获取到多个日文整句样本,分别对各日文整句样本进行分词,得到各日文整句样本的词组和/或单字;基于日文词语与注音规范确定各日文整句样本中各词组和/或各单字的注音数据。
获取模块41还用于将各日文整句样本作为待分词的日文整句样本;将待分词的日文整句样本的第一个字作为词首,并按照待分词的日文整句样本中各字的排列顺序从后往前依次将各字作为词尾,直至词首与词尾组成的词组符合日文词语与注音规范,得到一个词组/或单字以及剩余日文整句样本;将剩余日文整句样本作为待分词的日文整句样本再次进行分词,直至各日文整句样本的分词完成,得到各日文整句样本的单字和/或词组。
获取模块41还用于基于各日文整句样本以及各日文整句样本的词组和/或单字训练日文语言模型;将日文整句样本中各个字的注音数据与各日文整句样本内各个字建立对应关系,基于对应关系以及日文语言模型利用加权有限状态转换器构建音字转换网络。
获取模块41还用于响应于词组的注音数据不能基于日文词语与注音规范进行音节切分;基于词组中的目标字截取词组的注音数据中的部分注音数据,并基于日文词语与注音规范判断词组的注音数据中剩余的注音数据是否为词组中的除目标字以外的字的注音数据;如果剩余的注音数据为词组中的除目标字以外的字的注音数据,则将部分注音数据确定为目标字的注音数据,以得到词组中各个字的注音数据。
获取模块41还用于响应于目标字位于词组的词首,按照词组的注音数据的排列顺序从前往后依次递增截取词组的注音数据中的部分注音数据;响应于目标字位于词组的词中,词组中存在第一数量个字位于目标字之前,以及存在第二数量个字位于目标字之后,词组的注音数据的长度为第三数量,则在词组的注音数据的预设注音范围内依次递增截取词组的注音数据中的部分注音数据;其中,预设注音范围为词组的注音数据中第四个注音数据到第五数量个注音数据,第四数量为第一数量加1,第五数量为第三数量与第二数量之间的差值;响应于目标字位于词组的词尾,按照词组的注音数据的排列顺序从后往前依次递增截取词组的注音数据中的部分注音数据。
获取模块41还用于按照词组中各个字的排列顺序依次将各个字确定目标字,直至确定词组中各个字的注音数据。
转换模块43还用于基于音字转换网络对各单字的注音数据进行文字转换,得到至少一个单字和/或词组以及至少一个单字和/或词组之间的排列概率;按照至少一个单字和/或词组之间的排列概率对至少一个单字和/或词组进行排序,得到至少一个日文整句以及各日文整句的组合概率。
上述方案,能够提高日文输入效率。
请参阅图5,图5是本申请电子设备一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52,处理器52用于执行存储器51中存储的程序指令,以实现上述任一日文输入方法实施例的步骤。在一个具体的实施场景中,电子设备50可以包括但不限于:微型计算机、服务器,此外,电子设备50还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器52用于控制其自身以及存储器51以实现上述任一日文输入方法实施例的步骤。处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
上述方案,能够提高日文输入效率。
请参阅图6,图6为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601,程序指令601用于实现上述任一日文输入方法实施例的步骤。
上述方案,能够提高日文输入效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (12)

1.一种日文输入方法,其特征在于,所述日文输入方法包括:
获取到用户输入的整句日文注音数据;
对所述整句日文注音数据进行音节切分,得到所述整句日文注音数据中各单字的注音数据;
基于所述各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各所述日文整句的组合概率;
基于所述组合概率将各所述日文整句依次进行排序后输出;
其中,所述音字转换网络是利用多个日文整句样本、所述日文整句样本中各个字的注音数据和对应的字进行构建得到的。
2.根据权利要求1所述的日文输入方法,其特征在于,所述音字转换网络是利用多个日文整句样本、所述日文整句样本中各个字的注音数据和对应的字进行构建得到的,包括:
获取到多个日文整句样本,并获取到各所述日文整句样本中各词组和/或各单字的注音数据;
对各词组的注音数据进行音节切分,得到各词组中各个字的注音数据,并综合所述各词组中各个字的注音数据以及所述各单字的注音数据得到各所述日文整句样本中各个字的注音数据;
利用各所述日文整句样本、所述日文整句样本中各个字的注音数据和对应的字构建所述音字转换网络。
3.根据权利要求2所述的日文输入方法,其特征在于,所述获取到多个日文整句样本,并获取到各所述日文整句样本中各词组和/或各单字的注音数据的步骤包括:
获取到所述多个日文整句样本,分别对各日文整句样本进行分词,得到各日文整句样本的词组和/或单字;
基于日文词语与注音规范确定各所述日文整句样本中各词组和/或各单字的注音数据。
4.根据权利要求3所述的日文输入方法,其特征在于,所述获取到所述多个日文整句样本,并分别对各日文整句样本进行分词,得到各日文整句样本的词组和/或单字的步骤包括:
将各日文整句样本作为待分词的日文整句样本;
将待分词的日文整句样本的第一个字作为词首,并按照所述待分词的日文整句样本中各字的排列顺序从后往前依次将各字作为词尾,直至所述词首与所述词尾组成的词组符合所述日文词语与注音规范,得到一个词组/或单字以及剩余日文整句样本;
将所述剩余日文整句样本作为待分词的日文整句样本再次进行分词,直至所述各日文整句样本的分词完成,得到所述各日文整句样本的单字和/或词组。
5.根据权利要求3所述的日文输入方法,其特征在于,所述利用各所述日文整句样本以及所述日文整句样本中各个字的注音数据构建所述音字转换网络的步骤包括:
基于所述各日文整句样本以及各日文整句样本的词组和/或单字训练日文语言模型;
将所述日文整句样本中各个字的注音数据与所述各日文整句样本内各个字建立对应关系,基于所述对应关系以及所述日文语言模型利用加权有限状态转换器构建所述音字转换网络。
6.根据权利要求2-5任一项所述的日文输入方法,其特征在于,所述对各词组的注音数据进行音节切分,得到各词组中各个字的注音数据的步骤包括:
响应于所述词组的注音数据不能基于所述日文词语与注音规范进行音节切分;
基于所述词组中的目标字截取所述词组的注音数据中的部分注音数据,并基于所述日文词语与注音规范判断所述词组的注音数据中剩余的注音数据是否为所述词组中的除所述目标字以外的字的注音数据;
如果所述剩余的注音数据为所述词组中的除所述目标字以外的字的注音数据,则将所述部分注音数据确定为所述目标字的注音数据,以得到所述词组中各个字的注音数据。
7.根据权利要求6所述的日文输入方法,其特征在于,所述基于所述词组中的目标字截取所述词组的注音数据中的部分注音数据的步骤包括:
响应于所述目标字位于所述词组的词首,按照所述词组的注音数据的排列顺序从前往后依次递增截取所述词组的注音数据中的部分注音数据;
响应于所述目标字位于所述词组的词中,所述词组中存在第一数量个字位于目标字之前,以及存在第二数量个字位于目标字之后,所述词组的注音数据的长度为第三数量,则在所述词组的注音数据的预设注音范围内依次递增截取所述词组的注音数据中的部分注音数据;其中,所述预设注音范围为所述词组的注音数据中第四个注音数据到第五数量个注音数据,所述第四数量为所述第一数量加1,所述第五数量为所述第三数量与第二数量之间的差值;
响应于所述目标字位于所述词组的词尾,按照所述词组的注音数据的排列顺序从后往前依次递增截取所述词组的注音数据中的部分注音数据。
8.根据权利要求7所述的日文输入方法,其特征在于,所述基于所述词组中的目标字截取所述词组的注音数据中的部分注音数据的步骤还包括:
按照所述词组中各个字的排列顺序依次将各个字确定所述目标字,直至确定所述词组中各个字的注音数据。
9.根据权利要求1所述的日文输入方法,其特征在于,所述基于所述各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率的步骤包括:
基于所述音字转换网络对各单字的注音数据进行文字转换,得到至少一个单字和/或词组以及所述至少一个单字和/或词组之间的排列概率;
按照所述至少一个单字和/或词组之间的排列概率对所述至少一个单字和/或词组进行排序,得到所述至少一个日文整句以及各日文整句的组合概率。
10.一种日文输入装置,其特征在于,所述日文输入装置包括:
获取模块,用于获取到用户输入的整句日文注音数据;
音节切分模块,用于对所述整句日文注音数据进行音节切分,得到所述整句日文注音数据中各单字的注音数据;
转换模块,用于基于所述各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各所述日文整句的组合概率;
排序模块,用于基于所述组合概率将各所述转换后的日文整句依次进行排序后输出;
其中,所述音字转换网络是利用多个日文整句样本、所述日文整句样本中各个字的注音数据和对应的字进行构建得到的。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现如权利要求1至9任一项所述的日文输入方法。
12.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1至9任一项所述的日文输入方法。
CN202111666617.3A 2021-12-31 2021-12-31 日文输入方法以及相关装置、设备 Pending CN114327090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111666617.3A CN114327090A (zh) 2021-12-31 2021-12-31 日文输入方法以及相关装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111666617.3A CN114327090A (zh) 2021-12-31 2021-12-31 日文输入方法以及相关装置、设备

Publications (1)

Publication Number Publication Date
CN114327090A true CN114327090A (zh) 2022-04-12

Family

ID=81020249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111666617.3A Pending CN114327090A (zh) 2021-12-31 2021-12-31 日文输入方法以及相关装置、设备

Country Status (1)

Country Link
CN (1) CN114327090A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288673A (ja) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
CN103902521A (zh) * 2012-12-24 2014-07-02 高德软件有限公司 一种中文语句识别方法和装置
CN111090341A (zh) * 2019-12-24 2020-05-01 科大讯飞股份有限公司 输入法候选结果展示方法、相关设备及可读存储介质
CN112735378A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 泰语语音合成方法、装置以及设备
CN113157852A (zh) * 2021-04-26 2021-07-23 深圳市优必选科技股份有限公司 语音处理的方法、系统、电子设备及存储介质
CN113407038A (zh) * 2020-03-16 2021-09-17 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288673A (ja) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
CN103902521A (zh) * 2012-12-24 2014-07-02 高德软件有限公司 一种中文语句识别方法和装置
CN111090341A (zh) * 2019-12-24 2020-05-01 科大讯飞股份有限公司 输入法候选结果展示方法、相关设备及可读存储介质
CN113407038A (zh) * 2020-03-16 2021-09-17 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN112735378A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 泰语语音合成方法、装置以及设备
CN113157852A (zh) * 2021-04-26 2021-07-23 深圳市优必选科技股份有限公司 语音处理的方法、系统、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
T. ARAKI ET.AL: "A new method of finding provisional boundaries of "bunsetsu" using 2nd-order Markov model", PROCEEDINGS OF 1993 2ND IEEE INTERNATIONAL WORKSHOP ON ROBOT AND HUMAN COMMUNICATION, 6 August 2002 (2002-08-06) *
陈龙: "面向日文输入法的混合语言模型的改进与实现", 中国优秀硕士学位论文全文数据库, 15 April 2014 (2014-04-15) *

Similar Documents

Publication Publication Date Title
US8126714B2 (en) Voice search device
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
RU2377664C2 (ru) Способ ввода текста
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
CN105609107A (zh) 一种基于语音识别的文本处理方法和装置
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
CN111274367A (zh) 语意分析方法、语意分析系统及非暂态计算机可读取媒体
CN112530404A (zh) 一种语音合成方法、语音合成装置及智能设备
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
EP3489951B1 (en) Voice dialogue apparatus, voice dialogue method, and program
CN114822519A (zh) 中文语音识别纠错方法、装置及电子设备
CN112530402B (zh) 一种语音合成方法、语音合成装置及智能设备
RU2320026C2 (ru) Преобразование буквы в звук для синтезированного произношения сегмента текста
CN111710328B (zh) 语音识别模型的训练样本选取方法、装置及介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN114327090A (zh) 日文输入方法以及相关装置、设备
CN110245331A (zh) 一种语句转换方法、装置、服务器及计算机存储介质
CN111813989B (zh) 信息处理方法、设备及存储介质
KR101543024B1 (ko) 발음 기반의 번역 방법 및 그 장치
CN112530406A (zh) 一种语音合成方法、语音合成装置及智能设备
CN118379987B (zh) 语音识别方法、装置、相关设备及计算机程序产品
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
CN112786002B (zh) 一种语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination