CN106843523A - 基于人工智能的文字输入方法和装置 - Google Patents

基于人工智能的文字输入方法和装置 Download PDF

Info

Publication number
CN106843523A
CN106843523A CN201611138387.2A CN201611138387A CN106843523A CN 106843523 A CN106843523 A CN 106843523A CN 201611138387 A CN201611138387 A CN 201611138387A CN 106843523 A CN106843523 A CN 106843523A
Authority
CN
China
Prior art keywords
word
text
candidate
probability
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611138387.2A
Other languages
English (en)
Other versions
CN106843523B (zh
Inventor
王知践
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611138387.2A priority Critical patent/CN106843523B/zh
Publication of CN106843523A publication Critical patent/CN106843523A/zh
Application granted granted Critical
Publication of CN106843523B publication Critical patent/CN106843523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于人工智能的文字输入方法和装置,其中,方法包括:通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。

Description

基于人工智能的文字输入方法和装置
技术领域
本发明涉及文字输入技术领域,尤其涉及一种基于人工智能的基于人工智能的文字输入方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
输入法是一种常用的文字输入装置,在各类输入法中,基于拼音的输入法应用最为广泛。但由于汉字的特殊性,同样的一个发音会有对应的多个单字,如何能够根据用户所输入的拼音,准确地确定出用户所需的字,也就是提高输入的准确性是亟待解决的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的基于人工智能的文字输入方法,以提高拼音输入法的输入准确性。
本发明的第二个目的在于提出一种基于人工智能的基于人工智能的文字输入装置。
本发明的第三个目的在于提出另一种基于人工智能的基于人工智能的文字输入装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的基于人工智能的文字输入方法,包括:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
本发明实施例的基于人工智能的基于人工智能的文字输入方法,通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的文字输入装置,包括:
声学处理模块,用于将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
扩展模块,用于针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
语言处理模块,用于在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
查询模块,用于根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
本发明实施例的基于人工智能的基于人工智能的文字输入装置,通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。
为达上述目的,本发明第三方面实施例提出了另一种基于人工智能的文字输入装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由客户端的处理器被执行时,使得客户端能够执行一种基于人工智能的文字输入方法,所述方法包括:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的文字输入方法,所述方法包括:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于人工智能的文字输入方法的流程示意图;
图2为本发明实施例提供的另一种基于人工智能的文字输入方法的流程示意图;
图3为单字构图的示意图;
图4为本发明实施例提供的一种基于人工智能的文字输入装置的结构示意图;以及
图5为本发明实施例提供的另一种基于人工智能的文字输入装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的文字输入方法和装置。
图1为本发明实施例所提供的一种基于人工智能的文字输入方法的流程示意图。
如图1所示,该基于人工智能的文字输入方法包括以下步骤:
步骤101,将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率。
具体地,将用户所输入的拼音序列输入经过训练的声学模型,预测所述拼音序列所拼读的各语音,以及拼读各语音的声学概率;根据预设字典,查询发音符合所述各语音的字;按照各个字的拼音在所述拼音序列中出现的先后顺序,由所查询到的字组合成所述候选文本。其中,候选文本中每一个字的声学概率是根据该字的语音的声学概率获得的。
步骤102,针对所述候选文本,按照字的方式进行扩展,得到字组成的序列。
具体地,针对所述候选文本,以每一个字作为一个元素进行划分,得到字组成的序列。
步骤103,在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率。
具体地,根据预先确定的字与字状态之间的对应关系,查询所述候选文本中每一个字对应的字状态,得到所述候选文本对应的字状态序列;将所述字状态序列,输入所述基于字状态的语言模型,以预测所述候选文本中各个字与在所述字之前出现的字组合后,形成通顺短语的语言概率。
步骤104,根据候选文本中各个字的语言概率和声学概率,从候选文本中选出目标文本进行输出。
具体地,将候选文本中的各个字分别对应一条查询路径的起点,获得各个查询路径;针对每一条查询路径,将候选文本中,在起点对应的字之后出现的字,依次作为查询路径的当前节点,根据语言概率和所述声学概率,计算从查询路径的起点开始至当前节点的总概率;若从查询路径的起点开始至当前节点的总概率低于预设阈值,则筛选掉所述查询路径;根据筛选保留的查询路径,确定目标文本。
本实施例中,通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。
为了清楚说明上一实施例,本发明还提供了另一种基于人工智能的文字输入方法,图2为本发明实施例提供的另一种基于人工智能的文字输入方法的流程示意图,可以用于拼音输入法,如图2所示,包括:
步骤201,将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率,针对该候选文本,按照字的方式进行扩展,得到字组成的序列。
例如:用户输入“woyaoqubaiduke jiyuan”由于用户在进行输入时,是不需要在不同字的拼音之间进行断句的,因此,需要基于声学模型,预测用户所需拼读的各语音,以“wo”为例,可以预测用户所需拼读的语音为“我”,还有可能为“w”和“o”作为首字母的两个字组成的短语。并查询词典,根据预测的语音确定发音与之相符的字或词,作为候选文本。作为一种可能的结果,将用户所输入的拼音序列输入声学模型之后,可以得到候选文本“我要去百度科技园”。
在实际模型中,一般会针对预测的一个发音,选择10-20个发音与之相符的字添加到候选文本中,所以实际上候选文本中会包含大量的字,并且字之间存在先后顺序,字之间的顺序是按照对应的拼音在拼音序列中出现的先后顺序所确定的。
步骤202,针对候选文本,按照字的方式进行扩展,得到字组成的序列。
例如:针对上一步骤中所获得的候选文本“我要去百度科技园”,每一个词扩展成单字组成的序列,即{我,要,去,百,度,科,技,园}。
步骤203,根据字和字状态之间的对应关系查询候选文本中每一个字对应的字状态,得到候选文本对应的字状态序列。
隐马尔科夫模型(HMM)是通过在所有可能的HMM状态跳转序列中找出最优的跳转序列,将其对应的文本信息作为最终的识别结果。而解码网络描述所有可能的HMM状态跳转,我们的目的就是在解码网络上搜寻最佳跳转状态序列,搜寻过程中,HMM状态跳转的序列被称为路径,最终得到的结果也是解码网络所能描述的所有可能路径中的一种。具体地,在现有技术中,HMM中的状态是音素状态,也就是说,仅有音素(tri-phone)到音素状态(tri-state)之间的映射,本实施例中的HMM采用了字和字状态之间的映射,其中,用state表示字状态。
例如:可以将字序列中每一个字采用一个字符替换进行解码,具体来说{我,要,去,百,度,科,技,园}可以替换为字符序列{a,b,c,d,e,f,x,y},其中,可以用phone表示字符序列中的字符,也就是对应一个单字。
需要说明的是,在字符序列中还可以包括“<s>”、“<s\>”等辅助标识,如标识起始和结尾的字符。
根据下表的示例可见,字符与phone之间存在对应的关系,也就是用phone对应单字。
<s>(01) D$[wb]
<s\>(01) D$[wb]
abcdef phone1[wb]phone2phone3phone4phone5phone6[wb]
abdef phone1[wb]phone2phone4phone5phone6[wb]
bdef phone2[wb]phone4phone5phone6phone7[wb]
xyz phone24[wb]phone25phone26[wb]
xy phone24[wb]phone25[wb]
表1 phone的示例
根据如下表所示的phone和state之间的映射关系,确定出字状态序列。
D$ 0
phone1 1
phone2 2
phone3 3
…… ……
phone5981 5981
表2 phone和state之间的映射关系
步骤204,将字状态序列,输入基于字状态的语言模型,以预测候选文本中各个字与在所述字之前出现的字组合后,形成通顺短语的语言概率。
步骤205,根据候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
具体来说,首先,将所述候选文本中的各个字分别对应一条查询路径的起点,获得各个查询路径。
进而,针对每一条查询路径,将所述候选文本中,在所述起点对应的字之后出现的字,依次作为所述查询路径的当前节点,根据所述语言概率和所述声学概率,计算从所述查询路径的起点开始至当前节点的总概率,若从所述查询路径的起点开始至当前节点的总概率低于预设阈值,则筛选掉所述查询路径。
其中,总概率是根据各节点对应字的所述语言概率和所述声学概率进行加权,获得字的概率之后,对各个字的概率进行求和所获得的。
最后,根据筛选保留的查询路径,确定目标文本。可选地,作为一种可能的实现方式,可以对至少两条查询路径进行合并,得到查询路径的公共部分,根据所述公共部分中各节点对应字,确定目标文本。
例如,图3为单字构图的示意图,在图3中将字符序列{a,b,c,d,e,f}拆分之后,从中选取一部分单字,每一个节点对应一个单字的字符作为查询路径的起点。针对每一条路径按照单字的先后顺序,查询接续在前一个节点之后的当前节点,使得查询路径的起点开始至当前节点的总概率最大化。并且,为了减少不必要的计算,可以在查询路径每确定一个节点之后,判断总概率是否低于阈值,筛选掉低于阈值的查询路径。最后,保留高于阈值的各查询路径,分别采用前向合并和后向合并的方式进行合并处理,以得到最终输出的目标文本。
需要说明的是,图3中“node id”表示这个节点在图中的标号,“state”、“we”、“towe”、“null”、“stop”等表示的是这个节点的性质。图中弧线上的标号,如果为“id:label”这种形式,表示的是单字组成短语的标号和对应的短语;如果只是一个“id”,那么表示的是字状态的标号。
本实施例中,通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。
为了实现上述实施例,本发明还提出一种基于人工智能的文字输入装置。
图4为本发明实施例提供的一种基于人工智能的文字输入装置的结构示意图。
如图4所示,该基于人工智能的文字输入装置包括:声学处理模块41、扩展模块42、语言处理模块43和查询模块44。
声学处理模块41,用于将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率。
扩展模块42,用于针对所述候选文本,按照字的方式进行扩展,得到字组成的序列。
具体地,扩展模块42,具体用于:针对所述候选文本,以每一个字作为一个元素进行划分,得到字组成的序列。
语言处理模块43,用于在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率。
查询模块44,用于根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
基于上述实施例,本发明实施例还提供了一种基于人工智能的文字输入装置的可能的实现方式,图5为本发明实施例提供的另一种基于人工智能的文字输入装置的结构示意图。
在上一实施例的基础上,如图5所示,基于人工智能的文字输入装置中的查询模块44,包括:确定单元441、计算单元442、筛选单元443和处理单元444。
确定单元441,用于将所述候选文本中的各个字分别对应一条查询路径的起点,获得各个查询路径。
计算单元442,用于针对每一条查询路径,将所述候选文本中,在所述起点对应的字之后出现的字,依次作为所述查询路径的当前节点,根据所述语言概率和所述声学概率,计算从所述查询路径的起点开始至当前节点的总概率。
其中,总概率是根据各节点对应字的所述语言概率和所述声学概率进行加权,获得字的概率之后,对各个字的概率进行求和所获得的。
筛选单元443,用于若从所述查询路径的起点开始至当前节点的总概率低于预设阈值,则筛选掉所述查询路径。
处理单元444,用于根据筛选保留的查询路径,确定所述目标文本。
进一步,作为一种可能的实现方式,处理单元444,具体用于对至少两条查询路径采用前向和/或后向方式进行合并,获得所述至少两条查询路径中的公共部分;根据所述公共部分中各节点对应字,确定所述目标文本。
进一步,声学处理模块41,包括:预测单元411、查询单元412和生成单元413。
预测单元411,用于将用户所输入的拼音序列输入经过训练的声学模型,预测所述拼音序列所拼读的各语音,以及拼读各语音的声学概率。
查询单元412,用于根据预设字典,查询发音符合所述各语音的字。
生成单元413,用于按照各个字的拼音在所述拼音序列中出现的先后顺序,由所查询到的字组合成所述候选文本。
其中,所述候选文本中每一个字的声学概率是根据所述字的语音的声学概率获得的。
进一步,语言处理模块43,包括:状态确定单元431和概率计算单元432。
状态确定单元431,用于根据预先确定的字与字状态之间的对应关系,查询所述候选文本中每一个字对应的字状态,得到所述候选文本对应的字状态序列。
概率计算单元432,用于将所述字状态序列,输入所述基于字状态的语言模型,以预测所述候选文本中各个字与在所述字之前出现的字组合后,形成通顺短语的语言概率。
本发明实施例中,通过将用户所输入的拼音序列输入声学模型,得到候选文本以及其声学概率之后,针对候选文本,按照字的方式进行扩展,得到字组成的序列,进而在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定候选文本中各个字的语言概率,最后根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,由于综合利用了声学模型以及语言模型确定目标文本,增大了目标文本为用户所需输入文本的可能性,解决现有技术中拼音输入法的输入准确性较低的技术问题。
为了实现上述实施例,本发明还提出另一种基于人工智能的文字输入装置,包括:处理器,以及用于存储所述处理器可执行指令的存储器。
其中,处理器被配置为:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由客户端的处理器被执行时,使得客户端能够执行一种基于人工智能的文字输入方法,所述方法包括:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的文字输入方法,所述方法包括:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种基于人工智能的文字输入方法,其特征在于,包括以下步骤:
将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
2.根据权利要求1所述的基于人工智能的文字输入方法,其特征在于,所述根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出,包括:
将所述候选文本中的各个字分别对应一条查询路径的起点,获得各个查询路径;
针对每一条查询路径,将所述候选文本中,在所述起点对应的字之后出现的字,依次作为所述查询路径的当前节点,根据所述语言概率和所述声学概率,计算从所述查询路径的起点开始至当前节点的总概率;
若从所述查询路径的起点开始至当前节点的总概率低于预设阈值,则筛选掉所述查询路径;
根据筛选保留的查询路径,确定所述目标文本。
3.根据权利要求2所述的基于人工智能的文字输入方法,其特征在于,所述根据筛选保留的查询路径,确定所述目标文本,包括:
对至少两条查询路径采用前向和/或后向方式进行合并,获得所述至少两条查询路径中的公共部分;
根据所述公共部分中各节点对应字,确定所述目标文本。
4.根据权利要求2所述的基于人工智能的文字输入方法,其特征在于,所述总概率是根据各节点对应字的所述语言概率和所述声学概率进行加权,获得字的概率之后,对各个字的概率进行求和所获得的。
5.根据权利要求1-4任一项所述的基于人工智能的文字输入方法,其特征在于,所述将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率,包括:
将用户所输入的拼音序列输入经过训练的声学模型,预测所述拼音序列所拼读的各语音,以及拼读各语音的声学概率;
根据预设字典,查询发音符合所述各语音的字;
按照各个字的拼音在所述拼音序列中出现的先后顺序,由所查询到的字组合成所述候选文本;其中,所述候选文本中每一个字的声学概率是根据所述字的语音的声学概率获得的。
6.根据权利要求1-4任一项所述的基于人工智能的文字输入方法,其特征在于,所述针对所述候选文本,按照字的方式进行扩展,得到字组成的序列,包括:
针对所述候选文本,以每一个字作为一个元素进行划分,得到字组成的序列。
7.根据权利要求1-4任一项所述的基于人工智能的文字输入方法,其特征在于,所述在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率,包括:
根据预先确定的字与字状态之间的对应关系,查询所述候选文本中每一个字对应的字状态,得到所述候选文本对应的字状态序列;
将所述字状态序列,输入所述基于字状态的语言模型,以预测所述候选文本中各个字与在所述字之前出现的字组合后,形成通顺短语的语言概率。
8.一种基于人工智能的文字输入装置,其特征在于,包括:
声学处理模块,用于将用户所输入的拼音序列输入声学模型,得到候选文本,以及候选文本中每一个字的声学概率;
扩展模块,用于针对所述候选文本,按照字的方式进行扩展,得到字组成的序列;
语言处理模块,用于在由每一个字对应的字状态所确定出的所述候选文本对应字状态序列中,基于字状态的语言模型进行预测,确定所述候选文本中各个字的语言概率;
查询模块,用于根据所述候选文本中各个字的所述语言概率和所述声学概率,从所述候选文本中选出目标文本进行输出。
9.根据权利要求8所述的基于人工智能的文字输入装置,其特征在于,所述查询模块,包括:
确定单元,用于将所述候选文本中的各个字分别对应一条查询路径的起点,获得各个查询路径;
计算单元,用于针对每一条查询路径,将所述候选文本中,在所述起点对应的字之后出现的字,依次作为所述查询路径的当前节点,根据所述语言概率和所述声学概率,计算从所述查询路径的起点开始至当前节点的总概率;
筛选单元,用于若从所述查询路径的起点开始至当前节点的总概率低于预设阈值,则筛选掉所述查询路径;
处理单元,用于根据筛选保留的查询路径,确定所述目标文本。
10.根据权利要求9所述的基于人工智能的文字输入装置,其特征在于,
所述处理单元,具体用于对至少两条查询路径采用前向和/或后向方式进行合并,获得所述至少两条查询路径中的公共部分;根据所述公共部分中各节点对应字,确定所述目标文本。
11.根据权利要求9所述的基于人工智能的文字输入装置,其特征在于,所述总概率是根据各节点对应字的所述语言概率和所述声学概率进行加权,获得字的概率之后,对各个字的概率进行求和所获得的。
12.根据权利要求8-11任一项所述的基于人工智能的文字输入装置,其特征在于,所述声学处理模块,包括:
预测单元,用于将用户所输入的拼音序列输入经过训练的声学模型,预测所述拼音序列所拼读的各语音,以及拼读各语音的声学概率;
查询单元,用于根据预设字典,查询发音符合所述各语音的字;
生成单元,用于按照各个字的拼音在所述拼音序列中出现的先后顺序,由所查询到的字组合成所述候选文本;其中,所述候选文本中每一个字的声学概率是根据所述字的语音的声学概率获得的。
13.根据权利要求8-11任一项所述的基于人工智能的文字输入装置,其特征在于,所述扩展模块,具体用于:
针对所述候选文本,以每一个字作为一个元素进行划分,得到字组成的序列。
14.根据权利要求8-11任一项所述的基于人工智能的文字输入装置,其特征在于,所述语言处理模块,包括:
状态确定单元,用于根据预先确定的字与字状态之间的对应关系,查询所述候选文本中每一个字对应的字状态,得到所述候选文本对应的字状态序列;
概率计算单元,用于将所述字状态序列,输入所述基于字状态的语言模型,以预测所述候选文本中各个字与在所述字之前出现的字组合后,形成通顺短语的语言概率。
CN201611138387.2A 2016-12-12 2016-12-12 基于人工智能的文字输入方法和装置 Active CN106843523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611138387.2A CN106843523B (zh) 2016-12-12 2016-12-12 基于人工智能的文字输入方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611138387.2A CN106843523B (zh) 2016-12-12 2016-12-12 基于人工智能的文字输入方法和装置

Publications (2)

Publication Number Publication Date
CN106843523A true CN106843523A (zh) 2017-06-13
CN106843523B CN106843523B (zh) 2020-09-22

Family

ID=59139643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611138387.2A Active CN106843523B (zh) 2016-12-12 2016-12-12 基于人工智能的文字输入方法和装置

Country Status (1)

Country Link
CN (1) CN106843523B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628827A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN111506736A (zh) * 2020-04-08 2020-08-07 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备
CN112668317A (zh) * 2019-10-15 2021-04-16 三星电子株式会社 用于确定输出词法单元的方法和设备
CN112987940A (zh) * 2021-04-27 2021-06-18 广州智品网络科技有限公司 一种基于样本概率量化的输入方法、装置和电子设备
CN113449515A (zh) * 2021-01-27 2021-09-28 心医国际数字医疗系统(大连)有限公司 一种医学文本的预测方法、预测装置及电子设备
CN114758649A (zh) * 2022-04-06 2022-07-15 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254795A1 (en) * 2001-07-23 2004-12-16 Atsushi Fujii Speech input search system
CN101067780A (zh) * 2007-06-21 2007-11-07 腾讯科技(深圳)有限公司 智能设备的文字输入系统及方法
CN104035551A (zh) * 2013-03-08 2014-09-10 联想(北京)有限公司 一种输入方法及电子设备
CN104424942A (zh) * 2013-09-02 2015-03-18 张凯 一种提高文字语音输入准确率的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254795A1 (en) * 2001-07-23 2004-12-16 Atsushi Fujii Speech input search system
CN101067780A (zh) * 2007-06-21 2007-11-07 腾讯科技(深圳)有限公司 智能设备的文字输入系统及方法
CN104035551A (zh) * 2013-03-08 2014-09-10 联想(北京)有限公司 一种输入方法及电子设备
CN104424942A (zh) * 2013-09-02 2015-03-18 张凯 一种提高文字语音输入准确率的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANGSHI REN: "Determining the Optimal Size of Handwriting Character Entry Boxes for Pen-Based Systems", 《THE FIFTH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY (CIT"05)》 *
祝嘉声: "基于DNN的汉语语音识别声学模型的研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628827A (zh) * 2018-04-11 2018-10-09 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN112668317A (zh) * 2019-10-15 2021-04-16 三星电子株式会社 用于确定输出词法单元的方法和设备
CN111506736A (zh) * 2020-04-08 2020-08-07 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备
CN111506736B (zh) * 2020-04-08 2023-08-08 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备
CN113449515A (zh) * 2021-01-27 2021-09-28 心医国际数字医疗系统(大连)有限公司 一种医学文本的预测方法、预测装置及电子设备
CN112987940A (zh) * 2021-04-27 2021-06-18 广州智品网络科技有限公司 一种基于样本概率量化的输入方法、装置和电子设备
WO2022228367A1 (en) * 2021-04-27 2022-11-03 Guangzhou Ziipin Network Technology Co., Ltd. Input method and apparatus based on sample-probability quantization, and electronic device
CN114758649A (zh) * 2022-04-06 2022-07-15 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质
WO2023193442A1 (zh) * 2022-04-06 2023-10-12 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质
CN114758649B (zh) * 2022-04-06 2024-04-19 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN106843523B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN105244020B (zh) 韵律层级模型训练方法、语音合成方法及装置
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
CN106843523A (zh) 基于人工智能的文字输入方法和装置
CN105336322B (zh) 多音字模型训练方法、语音合成方法及装置
Weber et al. Models of spoken‐word recognition
CN106773923B (zh) 面向机器人的多模态情感数据交互方法及装置
CN106601228B (zh) 基于人工智能韵律预测的样本标注方法及装置
CN105185372B (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN105096941B (zh) 语音识别方法以及装置
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN111738016B (zh) 多意图识别方法及相关设备
CN107301860A (zh) 基于中英文混合词典的语音识别方法及装置
JP2019185521A (ja) リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
CN105654940B (zh) 一种语音合成方法和装置
CN104572614A (zh) 一种语言模型的训练方法及系统
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
Zheng et al. Improving Prosodic Boundaries Prediction for Mandarin Speech Synthesis by Using Enhanced Embedding Feature and Model Fusion Approach.
CN113360610A (zh) 基于Transformer模型的对话生成方法及系统
Tamburini et al. Prosodic prominence detection in Italian continuous speech using probabilistic graphical models
CN108846125A (zh) 对话生成方法、装置、终端和计算机可读存储介质
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备
JP6299563B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant