CN103365896B - 一种确定目标字符序列对应的语调信息的方法与设备 - Google Patents

一种确定目标字符序列对应的语调信息的方法与设备 Download PDF

Info

Publication number
CN103365896B
CN103365896B CN201210094554.3A CN201210094554A CN103365896B CN 103365896 B CN103365896 B CN 103365896B CN 201210094554 A CN201210094554 A CN 201210094554A CN 103365896 B CN103365896 B CN 103365896B
Authority
CN
China
Prior art keywords
intonation
sequence
target character
index
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210094554.3A
Other languages
English (en)
Other versions
CN103365896A (zh
Inventor
张超
何径舟
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210094554.3A priority Critical patent/CN103365896B/zh
Publication of CN103365896A publication Critical patent/CN103365896A/zh
Application granted granted Critical
Publication of CN103365896B publication Critical patent/CN103365896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的目的是提供一种用于确定目标字符序列对应的语调信息的方法与设备,通过获取待确定其语调信息的目标字符序列;根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。与现有技术相比,本发明根据待确定其语调信息的目标字符序列,在一个或多个多元语言模型中进行查询,获得对应的一个或多个语调索引信息,进而确定该目标字符序列所对应的语调信息,方便后续处理,提高语言处理的效率。

Description

一种确定目标字符序列对应的语调信息的方法与设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种用于确定目标字符序列对应的语调信息的技术。
背景技术
由于自然语言中存在很多带有声调的语言,如越南语、法语等语言,在这些语言中,字母上会有各种声调,从而更好地表达相关信息。带有声调的标准文字往往会出现在正规的场合,如各大网站的网页上等等。但是在很多场合,为了减少输入麻烦,这样的正规语言会被去掉声调,按照英文字母的形式进行输出,例如用户输入场景、各大SNS社区、BBS等都有大量的这种去声调的字符序列出现。这样无疑给计算机匹配带来巨大的困难,如果不针对去声调的字符序列进行还原,即确定该去声调的字符序列所对应的语调信息,检索系统无法通过对序列进行匹配,从而返回相关文档。在后期的其他相关语义研究,比如机器翻译、语义分析等中,也无法准确地获知用户意图,从而提供更准确更优质的服务。
因此,如何确定目标字符序列对应的语调信息,方便后续处理,提高语言处理的效率,成为本领域技术人员亟需解决的问题之一。
发明内容
本发明的目的是提供一种用于确定目标字符序列对应的语调信息的方法与设备。
根据本发明的一个方面,提供了一种由计算机实现的用于确定目标字符序列所对应的语调信息的方法,其中,该方法包括以下步骤:
a获取待确定其语调信息的目标字符序列;
b根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;
c根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。
根据本发明的另一方面,还提供了一种用于确定目标字符序列所对应的语调信息的语调确定设备,其中,该设备包括:
序列获取装置,用于获取待确定其语调信息的目标字符序列;
索引匹配装置,用于根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;
语调确定装置,用于根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。
根据本发明的又一方面,还提供了一种搜索引擎,包括如上所述的用于确定目标字符序列所对应的语调信息的装置。
根据本发明的再一方面,还提供了一种搜索引擎插件,包括如上所述的用于确定目标字符序列所对应的语调信息的装置。
根据本发明的再一方面,还提供了一种输入法设备,包括如上所述的用于确定目标字符序列所对应的语调信息的装置。
根据本发明的再一方面,还提供了一种输入法插件,包括如上所述的用于确定目标字符序列所对应的语调信息的装置。
与现有技术相比,本发明根据待确定其语调信息的目标字符序列,在一个或多个多元语言模型中进行查询,获得对应的一个或多个语调索引信息,进而确定该目标字符序列所对应的语调信息,方便后续处理,提高语言处理的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定目标字符序列对应的语调信息的设备示意图;
图2示出根据本发明另一个方面的用于确定目标字符序列对应的语调信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定目标字符序列对应的语调信息的设备示意图;语调确定设备1包括序列获取装置101、索引匹配装置102和语调确定装置103。
语调确定设备1包括但不限于用户设备、网络设备。其中,所述用户设备及所述网络设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如个人计算机、智能手机、PDA、游戏机、或IPTV等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。
需要说明的是,所述用户设备、网络设备仅为举例,其他现有的或今后可能出现的用户设备或网络设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
其中,序列获取装置101获取待确定其语调信息的目标字符序列。具体地,序列获取装置101获取目标字符序列的方式包括但不限于:
1)通过调用搜索引擎等第三方设备提供的应用程序接口(API),获取该第三方设备提供的目标字符序列。
2)用户通过与用户设备的交互,在搜索框、输入框等内输入查询序列;序列获取装置101通过调用该用户设备提供的应用程序接口(API),或者,通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的查询序列,以作为该目标字符序列。
3)用户通过与用户设备的交互,输入输入字符串;通过调用该用户设备提供的应用程序接口(API),或者,序列获取装置101通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的输入字符串,以作为该目标字符序列。
在此,目标字符序列包括但不限于越南语、法语等任何具有相应语调信息的去语调字符序列、语调信息部分缺失的字符序列。
本领域技术人员应能理解上述目标字符序列仅为举例,其他现有的或今后可能出现的目标字符序列如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解上述获取目标字符序列的方式仅为举例,其他现有的或今后可能出现的获取目标字符序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
索引匹配装置102根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。具体地,索引匹配装置102根据序列获取装置101所获取的目标字符序列,直接在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的一个或多个语调索引信息,以作为与该目标字符序列相匹配的一个或多个语调索引信息;或者,首先通过诸如空格对该目标字符序列进行切词处理等方式,获得序列片段,再根据经切词处理后获得的序列片段,在该一个或多个多元语言模型中进行查询,获得与该(等)序列片段相匹配的一个或多个语调索引信息,以作为与该目标字符序列相匹配的一个或多个语调索引信息。在此,对目标字符序列的切词处理包括但不限于根据该目标字符序列所包括的空格进行切词、基于字符串匹配的切词、基于理解的切词、基于统计的切词等处理方式;而且,对目标字符序列的切词处理还可以基于该目标字符序列所属语言的语言特征信息,如汉语中声母与韵母的组合规律。其中,该语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串,如序列片段为“hoi”,则索引匹配装置102根据该序列片段,在该一个或多个多元语言模型中匹配得到的语调索引信息包括
在此,索引匹配装置102根据目标字符序列中的序列片段,匹配获得一个或多个语调索引信息的方式包括但不限于:
1)根据该目标字符序列中所包括的字符的数量,或者,根据该切词处理后获得的序列片段中所包括的字符的数量,确定在对应的多元语言模型中进行查询。例如目标字符序列为“hoi dap”,其中包括两个字符“hoi”和“dap”,则索引匹配装置102根据该字符的数量,在二元语言模型中进行查询,匹配获得与该目标字符序列相匹配的语调索引信息。
2)根据该一个或多个多元语言模型中所包括的最高元的语言模型,进行相应的匹配查询。例如目标字符序列为“ABCDE”,其中包括五个字符,该一个或多个多元语言模型中包括的最高元的语言模型为三元语言模型,则索引匹配装置102根据序列片段“ABC”,在该三元语言模型中进行查询,获得与目标序列相匹配的语调索引信息。
3)根据该目标字符序列中所包括的字符的数量,再结合该一个或多个多元语言模型中所包括的最高元的语言模型,进行相应的匹配查询。例如,假设一个或多个多元语言模型中所包括的最高元的语言模型为三元语言模型,但目标字符序列为“AB”,其中,只包括两个字符,则索引匹配装置102根据“AB”,在相应的二元语言模型中进行查询,获得与目标序列相匹配的语调索引信息。
优选地,当索引匹配装置102在高元语言模型中无法匹配获得与该目标字符序列中的序列片段相应的语调索引信息时,该索引匹配装置102进一步地,在低一级的多元语言模型中进行匹配查询。例如,目标字符序列为“ABCDE”,当索引匹配装置102根据序列片段“ABC”,在三元语言模型中进行匹配查询,无法获得与该序列片段“ABC”相应的语调索引信息,则该索引匹配装置102进一步地,根据序列片段“AB”,在二元语言模型中进行匹配查询。
在此,多元语言模型中包括一个或多个语言模型,每个语言模型中存储有去语调字符序列与其对应的字符序列的映射关系、该字符序列的出现频次、概率等,其中,每个语言模型中所包括的字符序列具有相同的字符数,如二元语言模型中存储的字符序列都包括两个字符、三元语言模型中存储的字符序列都包括三个字符等。
本领域技术人员应能理解上述匹配获得语调索引信息的方式仅为举例,其他现有的或今后可能出现的匹配获得语调索引信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
语调确定装置103根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。具体地,语调确定装置103确定该目标字符序列所对应的语调信息的方式包括但不限于:
1)根据所述目标字符序列,计算由所述一个或多个语调索引信息构成的一个或多个语调索引序列的概率,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;将概率最大的所述语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。例如,目标字符序列为“ABCDE”,其对应的语调索引信息包括“A1B1”、“A2B2”、“C1D1E1”、“C2D2E2”,则由这些语调索引信息构成的语调索引序列包括“A1B1C1D1E1”、“A1B1C2D2E2”、“A2B2C1D1E1”、“A2B2C2D2E2”,在此,以数字1、2等来表示各字符的语调信息;语调确定装置103计算上述四个语调索引序列的概率,假设概率分别为15%、25%、35%和25%;则该语调确定装置将概率最大的语调索引序列“A2B2C1D1E1”所对应的语调信息22111,确定为该目标字符序列“ABCDE”所对应的语调信息。
在此,语调确定装置103例如通过条件概率计算该一个或多个语调索引序列的概率。例如,对语调索引信息中任意相邻的2个字符xij和xi+1,k,计算这两个字符相邻的概率P(xij,xi+1,k)=P(xij)×P(xi+1,k|xij),进而,确定该语调索引信息的概率。
2)利用维特比算法,在由所述一个或多个语调索引信息构成的一个或多个语调索引序列中选择优选的所述语调索引序列,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;将所述优选的语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。例如,语调确定装置103列举目标字符序列中所包括的序列片段的所有可能的语调信息,再利用维特比算法,确定由序列片段的各种可能的语调信息所构成的、与目标字符序列相对应的语调索引序列,进而,从中选择优选的语调索引序列,如将概率最高的语调索引序列作为该优选的语调索引序列,并将该优选的语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。
本领域技术人员应能理解上述确定语调信息的方式仅为举例,其他现有的或今后可能出现的确定语调信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述索引匹配装置102根据序列获取装置101所获取的目标字符序列,并依其顺序,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。例如,假设目标字符序列为“ABCDE”,索引匹配装置102对该目标字符序列进行切词处理,获得序列片段“AB”、“CDE”,该索引匹配装置102根据该目标字符序列的顺序,根据序列片段“AB”,在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的语调索引信息“A1B1”、“A2B2”。又如,假设目标字符序列为“ABCDE”,一个或多个多元语言模型中最高为二元语言模型,该索引匹配装置102根据该目标字符序列的顺序,先对序列片段“AB”在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的语调索引信息“A1B1”、“A2B2”;再对后续序列片段“CD”在该一个或多个多元语言模型中进行查询。
优选地,所述索引匹配装置102根据序列获取装置101所获取的目标字符序列,并按最长匹配的原则,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。例如,假设目标字符序列为“ABCDE”,一个或多个多元语言模型中最高为三元语言模型,按照最长匹配的原则,索引匹配装置102首先分别根据该目标字符序列中的三元序列片段“ABC”、“BCD”、“CDE”,在该一个或多个多元语言模型中进行查询,最终,该索引匹配装置102根据序列片段“CDE”,在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的语调索引信息“C1D1E1”、“C2D2E2”。
优选地,该语调确定设备1还包括模型建立装置(未示出),该模型建立装置根据去语调字符序列与其对应的字符序列的映射关系,建立所述一个或多个多元语言模型。具体地,模型建立装置建立一个或多个多元语言模型的方式包括但不限于:
1)通过对一个或多个网页、文档等进行页面分析、语义分析等,从该网页、文档等中获取去语调字符序列与其对应的字符序列,进一步地,根据该去语调字符序列与其对应的字符序列的页面共现的频次,当该频次超过共现频次阈值时,将该去语调字符序列与其对应的字符序列的映射关系,存入该多元语言模型,如当该去语调字符序列中包括的字符数为两个时,存入二元语言模型中,以实现对该二元语言模型的建立。
2)根据用户的输入选择,获取去语调字符序列与其对应的字符序列,实现对多元语言模型的更新。例如,用户通过与用户设备的交互,输入了去语调字符序列,与该去语调字符序列相对应的字符序列具有多个,而用户在提供的多个字符序列中选择了一个,则该模型建立装置诸如通过调用该用户设备提供的应用程序接口(API),获取该用户所选择的字符序列,进一步地,该模型建立装置将该去语调字符序列与该用户选择的字符序列的映射关系,存入该多元语言模型。
本领域技术人员应能理解上述建立一个或多个多元语言模型的方式仅为举例,其他现有的或今后可能出现的建立一个或多个多元语言模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,该语调确定设备1还包括模型更新装置(未示出),该模型更新装置在对应于同一个候选去语调字符序列的一个或多个候选字符序列中,选取优选候选字符序列;根据所述一个或多个多元语言模型,确定所述候选去语调字符序列所对应的候选语调信息;若所述优选候选字符序列所对应的语调信息与所述候选语调信息相异,根据所述候选去语调字符序列与所述候选字符序列的映射关系,更新所述一个或多个多元语言模型。例如,假设候选去语调字符序列为“ABCD”,其对应的候选字符序列包括“A1B1C1D1”、“A2B2C2D2”、“A3B3C3D3”,模型更新装置从中选取优选候选字符序列,如根据这三个候选字符序列的频次,选择了频次最高的“A1B1C1D1”,作为优选候选字符序列;随后,该模型更新装置根据该一个或多个多元语言模型,确定该候选去语调字符序列“ABCD”的候选语调信息;假设该候选语调信息为1111,与该优选候选字符序列“A1B1C1D1”所对应的语调信息1111相同,则不对该候选去语调字符序列进行处理;若该候选语调信息为2222,与该优选候选字符序列“A1B1C1D1”所对应的语调信息1111相异,则模型更新装置将该候选去语调字符序列“ABCD”与该候选字符序列“A1B1C1D1”、“A2B2C2D2”、“A3B3C3D3”的映射关系,存入该一个或多个多元语言模型,如存入四元语言模型,以实现对该四元语言模型的更新。
在此,假设候选去语调字符序列为Y,其对应的一个或多个候选字符序列为X(X=Y1、Y2、Y3...YN),事实上,由于P(Y|Y1)、P(Y|Y2)、P(Y|Y3)...P(Y|YN)是不一样的,本发明中,为简单起见,全部让其等于1,即,P(Y|X)=1。因此,可将该一个或多个多元语音模型进行简化,其中:当X无法通过去语调信息变成Y,则P(Y|X)=0;当X可以通过去语调信息变成Y,则P(Y|X)=1。
本领域技术人员应能理解上述更新一个或多个多元语言模型的方式仅为举例,其他现有的或今后可能出现的更新一个或多个多元语言模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选实施例中,该语调确定设备1还包括搜索装置(未示出)。以下参照图1对该优选实施例进行详细描述:具体地,序列获取装置101获取用户输入的查询序列,以作为所述目标字符序列;索引匹配装置102根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;语调确定装置103根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息;搜索装置根据所述查询序列,并结合所述目标字符序列的语调信息,在搜索索引库中进行匹配查询,以获得与所述查询序列相对应的搜索结果;将所述搜索结果提供给所述用户。在此,索引匹配装置102和语调确定装置103与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,序列获取装置101获取用户输入的查询序列,以作为所述目标字符序列。具体地,用户通过与用户设备的交互,在搜索框、输入框等输入查询序列,序列获取装置101通过调用该用户设备提供的应用程序接口(API),或者,通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的查询序列,并将该查询序列作为目标字符序列。
搜索装置根据该序列获取装置101所获取的查询序列,并结合语调确定装置103所确定的该目标字符序列的语调信息,在搜索索引库中进行匹配查询,以获得与该查询序列相对应的一个或多个搜索结果;进一步地,该搜索装置通过调用诸如JSP、ASP或PHP等动态网页技术,将该一个或多个搜索结果,按照一定的格式和顺序,提供给该用户,供该用户浏览。
例如,对于声调语言越南语,每个字母上会有各种声调,从而更好地表达相关信息。形如这样的带有声调的标准文字往往会出现在正规的场合,如各大网站的网页上等等。但是在很多场合,为了减少输入麻烦,这样的正规语言会被去掉声调,按照英文字母的形式进行输出,如:hoi dap。假设用户通过与用户设备的交互,在搜索框内输入查询序列hoi dap,序列获取装置101获取该查询序列“hoi dap”,以作为目标字符序列;语调确定装置103确定该“hoi dap”所对应的语调信息;搜索装置根据该查询序列hoidap,并结合该语调信息,确定 进而,根据在搜索索引库中进行匹配查询,以获得相应的的搜索结果;并将该搜索结果提供给该用户。
在另一个优选实施例中,该语调确定设备1还包括输入确定装置(未示出)。以下参照图1对该优选实施例进行详细描述:具体地,序列获取装置101获取用户输入的输入字符串,以作为所述目标字符序列;索引匹配装置102根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;语调确定装置103根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息;输入确定装置根据所述输入字符串,并结合所述目标字符序列的语调信息,确定与所述输入字符串相对应的输入候选项;将所述输入候选项提供给所述用户。在此,索引匹配装置102和语调确定装置103与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,序列获取装置101获取用户输入的输入字符串,以作为所述目标字符序列。具体地,用户通过与用户设备的交互,输入输入字符串,序列获取装置101通过调用该用户设备提供的应用程序接口(API),或者,通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的输入字符串,并将该查询序列作为目标字符序列。
输入确定装置根据该序列获取装置101所获取的输入字符串,并结合语调确定装置103所确定的该目标字符序列的语调信息,将该语调信息与该输入字符串合并处理,以作为与该输入字符串相对应的输入候选项;进一步地,该输入确定装置将该输入候选项提供给该用户,供该用户输入。
例如,用户通过与用户设备的交互,输入输入字符串“hoi dap”,序列获取装置101获取该输入字符串“hoi dap”,以作为目标字符序列;语调确定装置103根据确定该“hoidap”对应的语调信息;随后,输入确定装置根据该输入字符串“hoi dap”,并结合该语调信息,将该语调信息与该输入字符串合并处理,生成以作为与该输入字符串相对应的输入候选项;进而,将该输入候选项提供给该用户。
优选地,语调确定装置103确定目标字符序列所对应的多个语调信息,例如选择概率最大的五个语调信息作为该目标字符序列的语调信息,该输入确定装置分别将这五个语调信息与该用户的输入字符串进行合并处理,以生成五个输入候选项,随后,该输入确定装置将该五个输入候选项提供给该用户,供该用户选择输入。
在一优选的实施例中,可将上述用于确定目标字符序列所对应的语调信息的装置,与现有的搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎可以是例如Baidu、Google、YaHoo等搜索引擎。
优选地,可将上述用于确定目标字符序列所对应的语调信息的装置,与现有的搜索引擎插件相结合,构成一种新的搜索引擎插件,现有的搜索引擎插件可以是例如MMS插件、MIDI五线谱插件、ActiveX插件等。
在另一优选的实施例中,可将上述用于确定目标字符序列所对应的语调信息的装置,与现有的输入法设备相结合,构成一种新的输入法设备,现有的输入法设备可以是例如搜狗输入法、百度输入法、QQ输入法等。
优选地,可将上述用于确定目标字符序列所对应的语调信息的装置,与现有的输入法插件相结合,构成一种新的输入法插件,现有的输入法插件可以是例如搜狗输入法插件、百度输入法插件、QQ输入法插件等。
图2示出根据本发明另一个方面的用于确定目标字符序列对应的语调信息的方法流程图。
在步骤S201中,语调确定设备1获取待确定其语调信息的目标字符序列。具体地,在步骤S201中,语调确定设备1获取目标字符序列的方式包括但不限于:
1)通过调用搜索引擎等第三方设备提供的应用程序接口(API),获取该第三方设备提供的目标字符序列。
2)用户通过与用户设备的交互,在搜索框、输入框等内输入查询序列;在步骤S201中,语调确定设备1通过调用该用户设备提供的应用程序接口(API),或者,通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的查询序列,以作为该目标字符序列。
3)用户通过与用户设备的交互,输入输入字符串;通过调用该用户设备提供的应用程序接口(API),或者,在步骤S201中,语调确定设备1通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的输入字符串,以作为该目标字符序列。
在此,目标字符序列包括但不限于越南语、法语等任何具有相应语调信息的去语调字符序列、语调信息部分缺失的字符序列。
本领域技术人员应能理解上述目标字符序列仅为举例,其他现有的或今后可能出现的目标字符序列如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解上述获取目标字符序列的方式仅为举例,其他现有的或今后可能出现的获取目标字符序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S202中,语调确定设备1根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。具体地,在步骤S202中,语调确定设备1根据在步骤S201中所获取的目标字符序列,直接在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的一个或多个语调索引信息,以作为与该目标字符序列相匹配的一个或多个语调索引信息;或者,首先通过诸如空格对该目标字符序列进行切词处理等方式,获得序列片段,再根据经切词处理后获得的序列片段,在该一个或多个多元语言模型中进行查询,获得与该(等)序列片段相匹配的一个或多个语调索引信息,以作为与该目标字符序列相匹配的一个或多个语调索引信息。在此,对目标字符序列的切词处理包括但不限于根据该目标字符序列所包括的空格进行切词、基于字符串匹配的切词、基于理解的切词、基于统计的切词等处理方式;而且,对目标字符序列的切词处理还可以基于该目标字符序列所属语言的语言特征信息,如汉语中声母与韵母的组合规律。其中,该语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串,如序列片段为“hoi”,则在步骤S202中,语调确定设备1根据该序列片段,在该一个或多个多元语言模型中匹配得到的语调索引信息包括
在此,在步骤S202中,语调确定设备1根据目标字符序列中的序列片段,匹配获得一个或多个语调索引信息的方式包括但不限于:
1)根据该目标字符序列中所包括的字符的数量,或者,根据该切词处理后获得的序列片段中所包括的字符的数量,确定在对应的多元语言模型中进行查询。例如目标字符序列为“hoi dap”,其中包括两个字符“hoi”和“dap”,则在步骤S202中,语调确定设备1根据该字符的数量,在二元语言模型中进行查询,匹配获得与该目标字符序列相匹配的语调索引信息。
2)根据该一个或多个多元语言模型中所包括的最高元的语言模型,进行相应的匹配查询。例如目标字符序列为“ABCDE”,其中包括五个字符,该一个或多个多元语言模型中包括的最高元的语言模型为三元语言模型,则在步骤S202中,语调确定设备1根据序列片段“ABC”,在该三元语言模型中进行查询,获得与目标序列相匹配的语调索引信息。
3)根据该目标字符序列中所包括的字符的数量,再结合该一个或多个多元语言模型中所包括的最高元的语言模型,进行相应的匹配查询。例如,假设一个或多个多元语言模型中所包括的最高元的语言模型为三元语言模型,但目标字符序列为“AB”,其中,只包括两个字符,则在步骤S202中,语调确定设备1根据“AB”,在相应的二元语言模型中进行查询,获得与目标序列相匹配的语调索引信息。
优选地,当在步骤S202中,语调确定设备1在高元语言模型中无法匹配获得与该目标字符序列中的序列片段相应的语调索引信息时,该语调确定设备1进一步地,在低一级的多元语言模型中进行匹配查询。例如,目标字符序列为“ABCDE”,当在步骤S202中,语调确定设备1根据序列片段“ABC”,在三元语言模型中进行匹配查询,无法获得与该序列片段“ABC”相应的语调索引信息,则该语调确定设备1进一步地,根据序列片段“AB”,在二元语言模型中进行匹配查询。
在此,多元语言模型中包括一个或多个语言模型,每个语言模型中存储有去语调字符序列与其对应的字符序列的映射关系、该字符序列的出现频次、概率等,其中,每个语言模型中所包括的字符序列具有相同的字符数,如二元语言模型中存储的字符序列都包括两个字符、三元语言模型中存储的字符序列都包括三个字符等。
本领域技术人员应能理解上述匹配获得语调索引信息的方式仅为举例,其他现有的或今后可能出现的匹配获得语调索引信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S203中,语调确定设备1根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。具体地,在步骤S203中,语调确定设备1确定该目标字符序列所对应的语调信息的方式包括但不限于:
1)根据所述目标字符序列,计算由所述一个或多个语调索引信息构成的一个或多个语调索引序列的概率,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;将概率最大的所述语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。例如,目标字符序列为“ABCDE”,其对应的语调索引信息包括“A1B1”、“A2B2”、“C1D1E1”、“C2D2E2”,则由这些语调索引信息构成的语调索引序列包括“A1B1C1D1E1”、“A1B1C2D2E2”、“A2B2C1D1E1”、“A2B2C2D2E2”,在此,以数字1、2等来表示各字符的语调信息;在步骤S203中,语调确定设备1计算上述四个语调索引序列的概率,假设概率分别为15%、25%、35%和25%;则该语调确定设备1将概率最大的语调索引序列“A2B2C1D1E1”所对应的语调信息22111,确定为该目标字符序列“ABCDE”所对应的语调信息。
在此,在步骤S203中,语调确定设备1例如通过条件概率计算该一个或多个语调索引序列的概率。例如,对语调索引信息中任意相邻的2个字符xij和xi+1,k,计算这两个字符相邻的概率P(xij,xi+1,k)=P(xij)×P(xi+1,k|xij),进而,确定该语调索引信息的概率。
2)利用维特比算法,在由所述一个或多个语调索引信息构成的一个或多个语调索引序列中选择优选的所述语调索引序列,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;将所述优选的语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。例如,在步骤S203中,语调确定设备1列举目标字符序列中所包括的序列片段的所有可能的语调信息,再利用维特比算法,确定由序列片段的各种可能的语调信息所构成的、与目标字符序列相对应的语调索引序列,进而,从中选择优选的语调索引序列,如将概率最高的语调索引序列作为该优选的语调索引序列,并将该优选的语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。
本领域技术人员应能理解上述确定语调信息的方式仅为举例,其他现有的或今后可能出现的确定语调信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S202中,语调确定设备1根据在步骤S201中所获取的目标字符序列,并依其顺序,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。例如,假设目标字符序列为“ABCDE”,在步骤S202中,语调确定设备1对该目标字符序列进行切词处理,获得序列片段“AB”、“CDE”,该语调确定设备1根据该目标字符序列的顺序,根据序列片段“AB”,在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的语调索引信息“A1B1”、“A2B2”。又如,假设目标字符序列为“ABCDE”,一个或多个多元语言模型中最高为二元语言模型,在步骤S202中,语调确定设备1根据该目标字符序列的顺序,先对序列片段“AB”在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的语调索引信息“A1B1”、“A2B2”;再对后续序列片段“CD”在该一个或多个多元语言模型中进行查询。
优选地,在步骤S202中,语调确定设备1根据在步骤S201中所获取的目标字符序列,并按最长匹配的原则,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。例如,假设目标字符序列为“ABCDE”,一个或多个多元语言模型中最高为三元语言模型,按照最长匹配的原则,在步骤S202中,语调确定设备1首先分别根据该目标字符序列中的三元序列片段“ABC”、“BCD”、“CDE”,在该一个或多个多元语言模型中进行查询,最终,该语调确定设备1根据序列片段“CDE”,在该一个或多个多元语言模型中进行查询,获得与该目标字符序列相匹配的语调索引信息“C1D1E1”、“C2D2E2”。
优选地,该方法还包括步骤S204(未示出),在该步骤S204中,语调确定设备1根据去语调字符序列与其对应的字符序列的映射关系,建立所述一个或多个多元语言模型。具体地,在步骤S204中,语调确定设备1建立一个或多个多元语言模型的方式包括但不限于:
1)通过对一个或多个网页、文档等进行页面分析、语义分析等,从该网页、文档等中获取去语调字符序列与其对应的字符序列,进一步地,根据该去语调字符序列与其对应的字符序列的页面共现的频次,当该频次超过共现频次阈值时,将该去语调字符序列与其对应的字符序列的映射关系,存入该多元语言模型,如当该去语调字符序列中包括的字符数为两个时,存入二元语言模型中,以实现对该二元语言模型的建立。
2)根据用户的输入选择,获取去语调字符序列与其对应的字符序列,实现对多元语言模型的更新。例如,用户通过与用户设备的交互,输入了去语调字符序列,与该去语调字符序列相对应的字符序列具有多个,而用户在提供的多个字符序列中选择了一个,则在步骤S204中,语调确定设备1诸如通过调用该用户设备提供的应用程序接口(API),获取该用户所选择的字符序列,进一步地,该语调确定设备1将该去语调字符序列与该用户选择的字符序列的映射关系,存入该多元语言模型。
本领域技术人员应能理解上述建立一个或多个多元语言模型的方式仅为举例,其他现有的或今后可能出现的建立一个或多个多元语言模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,该方法还包括步骤S205(未示出),在该步骤S205中,语调确定设备1在对应于同一个候选去语调字符序列的一个或多个候选字符序列中,选取优选候选字符序列;根据所述一个或多个多元语言模型,确定所述候选去语调字符序列所对应的候选语调信息;若所述优选候选字符序列所对应的语调信息与所述候选语调信息相异,根据所述候选去语调字符序列与所述候选字符序列的映射关系,更新所述一个或多个多元语言模型。例如,假设候选去语调字符序列为“ABCD”,其对应的候选字符序列包括“A1B1C1D1”、“A2B2C2D2”、“A3B3C3D3”,在步骤S205中,语调确定设备1从中选取优选候选字符序列,如根据这三个候选字符序列的频次,选择了频次最高的“A1B1C1D1”,作为优选候选字符序列;随后,该语调确定设备1根据该一个或多个多元语言模型,确定该候选去语调字符序列“ABCD”的候选语调信息;假设该候选语调信息为1111,与该优选候选字符序列“A1B1C1D1”所对应的语调信息1111相同,则不对该候选去语调字符序列进行处理;若该候选语调信息为2222,与该优选候选字符序列“A1B1C1D1”所对应的语调信息1111相异,则在步骤S205中,语调确定设备1将该候选去语调字符序列“ABCD”与该候选字符序列“A1B1C1D1”、“A2B2C2D2”、“A3B3C3D3”的映射关系,存入该一个或多个多元语言模型,如存入四元语言模型,以实现对该四元语言模型的更新。
在此,假设候选去语调字符序列为Y,其对应的一个或多个候选字符序列为X(X=Y1、Y2、Y3...YN),事实上,由于P(Y|Y1)、P(Y|Y2)、P(Y|Y3)...P(Y|YN)是不一样的,本发明中,为简单起见,全部让其等于1,即,P(Y|X)=1。因此,可将该一个或多个多元语音模型进行简化,其中:当X无法通过去语调信息变成Y,则P(Y|X)=0;当X可以通过去语调信息变成Y,则P(Y|X)=1。
本领域技术人员应能理解上述更新一个或多个多元语言模型的方式仅为举例,其他现有的或今后可能出现的更新一个或多个多元语言模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选实施例中,该方法还包括步骤S206(未示出)。以下参照图2对该优选实施例进行详细描述:具体地,在步骤S201中,语调确定设备1获取用户输入的查询序列,以作为所述目标字符序列;在步骤S202中,语调确定设备1根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;在步骤S203中,语调确定设备1根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息;在步骤S206中,语调确定设备1根据所述查询序列,并结合所述目标字符序列的语调信息,在搜索索引库中进行匹配查询,以获得与所述查询序列相对应的搜索结果;将所述搜索结果提供给所述用户。在此,步骤S202和S203与图2所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,在步骤S201中,语调确定设备1获取用户输入的查询序列,以作为所述目标字符序列。具体地,用户通过与用户设备的交互,在搜索框、输入框等输入查询序列,在步骤S201中,语调确定设备1通过调用该用户设备提供的应用程序接口(API),或者,通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的查询序列,并将该查询序列作为目标字符序列。
在步骤S206中,语调确定设备1根据在步骤S201中所获取的查询序列,并结合在步骤S203中所确定的该目标字符序列的语调信息,在搜索索引库中进行匹配查询,以获得与该查询序列相对应的一个或多个搜索结果;进一步地,该语调确定设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该一个或多个搜索结果,按照一定的格式和顺序,提供给该用户,供该用户浏览。
例如,对于声调语言越南语,每个字母上会有各种声调,从而更好地表达相关信息。形如这样的带有声调的标准文字往往会出现在正规的场合,如各大网站的网页上等等。但是在很多场合,为了减少输入麻烦,这样的正规语言会被去掉声调,按照英文字母的形式进行输出,如:hoi dap。假设用户通过与用户设备的交互,在搜索框内输入查询序列hoi dap,在步骤S201中,语调确定设备1获取该查询序列“hoi dap”,以作为目标字符序列;在步骤S203中,语调确定设备1确定该“hoi dap”所对应的语调信息;在步骤S206中,语调确定设备1根据该查询序列hoi dap,并结合该语调信息,确定进而,根据在搜索索引库中进行匹配查询,以获得相应的的搜索结果;并将该搜索结果提供给该用户。
在另一个优选实施例中,该方法还包括步骤S207(未示出)。以下参照图2对该优选实施例进行详细描述:具体地,在步骤S201中,语调确定设备1获取用户输入的输入字符串,以作为所述目标字符序列;在步骤S202中,语调确定设备1根据所述目标字符序列,在一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;在步骤S203中,语调确定设备1根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息;在步骤S207中,语调确定设备1根据所述输入字符串,并结合所述目标字符序列的语调信息,确定与所述输入字符串相对应的输入候选项;将所述输入候选项提供给所述用户。在此,步骤S202和S203与图2所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
在步骤S201中,语调确定设备1获取用户输入的输入字符串,以作为所述目标字符序列。具体地,用户通过与用户设备的交互,输入输入字符串,在步骤S201中,语调确定设备1通过调用该用户设备提供的应用程序接口(API),或者,通过调用诸如JSP、ASP或PHP等动态网页技术,获取该用户输入的输入字符串,并将该查询序列作为目标字符序列。
在步骤S207中,语调确定设备1根据在步骤S201中所获取的输入字符串,并结合在步骤S203中所确定的该目标字符序列的语调信息,将该语调信息与该输入字符串合并处理,以作为与该输入字符串相对应的输入候选项;进一步地,该语调确定设备1将该输入候选项提供给该用户,供该用户输入。
例如,用户通过与用户设备的交互,输入输入字符串“hoi dap”,在步骤S201中,语调确定设备1获取该输入字符串“hoi dap”,以作为目标字符序列;在步骤S203中,语调确定设备1根据确定该“hoi dap”对应的语调信息;随后,在步骤S207中,语调确定设备1根据该输入字符串“hoi dap”,并结合该语调信息,将该语调信息与该输入字符串合并处理,生成以作为与该输入字符串相对应的输入候选项;进而,将该输入候选项提供给该用户。
优选地,在步骤S203中,语调确定设备1确定目标字符序列所对应的多个语调信息,例如选择概率最大的五个语调信息作为该目标字符序列的语调信息,在步骤S207中,语调确定设备1分别将这五个语调信息与该用户的输入字符串进行合并处理,以生成五个输入候选项,随后,该语调确定设备1将该五个输入候选项提供给该用户,供该用户选择输入。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (17)

1.一种由计算机实现的用于确定目标字符序列所对应的语调信息的方法,其中,该方法包括以下步骤:
根据去语调字符序列与其对应的字符序列的映射关系,建立一个或多个多元语言模型;
a获取待确定其语调信息的目标字符序列;
b根据所述目标字符序列,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;
c根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
-根据所述目标字符序列,并依其顺序,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。
3.根据权利要求1所述的方法,其中,所述步骤b包括:
-根据所述目标字符序列,并按最长匹配的原则,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
-根据所述目标字符序列,计算由所述一个或多个语调索引信息构成的一个或多个语调索引序列的概率,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;
-将概率最大的所述语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。
5.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
-利用维特比算法,在由所述一个或多个语调索引信息构成的一个或多个语调索引序列中选择优选的所述语调索引序列,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;
-将所述优选的语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。
6.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-在对应于同一个候选去语调字符序列的一个或多个候选字符序列中,选取优选候选字符序列;
-根据所述一个或多个多元语言模型,确定所述候选去语调字符序列所对应的候选语调信息;
-若所述优选候选字符序列所对应的语调信息与所述候选语调信息相异,根据所述候选去语调字符序列与所述候选字符序列的映射关系,更新所述一个或多个多元语言模型。
7.根据权利要求1至3中任一项所述的方法,其中,所述步骤a包括:
-获取用户输入的查询序列,以作为所述目标字符序列;
其中,该方法还包括:
-根据所述查询序列,并结合所述目标字符序列的语调信息,在搜索索引库中进行匹配查询,以获得与所述查询序列相对应的搜索结果;
-将所述搜索结果提供给所述用户。
8.根据权利要求1至3中任一项所述的方法,其中,所述步骤a包括:
-获取用户输入的输入字符串,以作为所述目标字符序列;
其中,该方法还包括:
-根据所述输入字符串,并结合所述目标字符序列的语调信息,确定与所述输入字符串相对应的输入候选项;
-将所述输入候选项提供给所述用户。
9.一种用于确定目标字符序列所对应的语调信息的语调确定设备,其中,该设备包括:
模型建立装置,用于根据去语调字符序列与其对应的字符序列的映射关系,建立一个或多个多元语言模型;
序列获取装置,用于获取待确定其语调信息的目标字符序列;
索引匹配装置,用于根据所述目标字符序列,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串;
语调确定装置,用于根据所述一个或多个语调索引信息,确定所述目标字符序列所对应的语调信息。
10.根据权利要求9所述的语调确定设备,其中,所述索引匹配装置用于:
-根据所述目标字符序列,并依其顺序,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。
11.根据权利要求9所述的语调确定设备,其中,所述索引匹配装置用于:
-根据所述目标字符序列,并按最长匹配的原则,在所述一个或多个多元语言模型中进行查询,以获得与所述目标字符序列相匹配的一个或多个语调索引信息,其中,所述语调索引信息与其在所述目标字符序列中的对应序列片段具有相同的去语调字符串。
12.根据权利要求9至11中任一项所述的语调确定设备,其中,所述语调确定装置用于:
-根据所述目标字符序列,计算由所述一个或多个语调索引信息构成的一个或多个语调索引序列的概率,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;
-将概率最大的所述语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。
13.根据权利要求9至11中任一项所述的语调确定设备,其中,所述语调确定装置用于:
-利用维特比算法,在由所述一个或多个语调索引信息构成的一个或多个语调索引序列中选择优选的所述语调索引序列,其中,所述语调索引序列与所述目标字符序列具有相同的去语调字符串;
-将所述优选的语调索引序列所对应的语调信息,确定为所述目标字符序列所对应的语调信息。
14.根据权利要求9至11中任一项所述的语调确定设备,其中,该设备还包括模型更新装置,用于:
-在对应于同一个候选去语调字符序列的一个或多个候选字符序列中,选取优选候选字符序列;
-根据所述一个或多个多元语言模型,确定所述候选去语调字符序列所对应的候选语调信息;
-若所述优选候选字符序列所对应的语调信息与所述候选语调信息相异,根据所述候选去语调字符序列与所述候选字符序列的映射关系,更新所述一个或多个多元语言模型。
15.根据权利要求9至11中任一项所述的语调确定设备,其中,所述序列获取装置用于:
-获取用户输入的查询序列,以作为所述目标字符序列;
其中,该设备还包括搜索装置,用于:
-根据所述查询序列,并结合所述目标字符序列的语调信息,在搜索索引库中进行匹配查询,以获得与所述查询序列相对应的搜索结果;
-将所述搜索结果提供给所述用户。
16.根据权利要求9至11中任一项所述的语调确定设备,其中,所述序列获取装置用于:
-获取用户输入的输入字符串,以作为所述目标字符序列;
其中,该设备还包括输入确定装置,用于:
-根据所述输入字符串,并结合所述目标字符序列的语调信息,确定与所述输入字符串相对应的输入候选项;
-将所述输入候选项提供给所述用户。
17.一种输入法设备,包括如权利要求9至14中任一项所述的、或如权利要求16所述的用于确定目标字符序列所对应的语调信息的装置。
CN201210094554.3A 2012-04-01 2012-04-01 一种确定目标字符序列对应的语调信息的方法与设备 Active CN103365896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210094554.3A CN103365896B (zh) 2012-04-01 2012-04-01 一种确定目标字符序列对应的语调信息的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210094554.3A CN103365896B (zh) 2012-04-01 2012-04-01 一种确定目标字符序列对应的语调信息的方法与设备

Publications (2)

Publication Number Publication Date
CN103365896A CN103365896A (zh) 2013-10-23
CN103365896B true CN103365896B (zh) 2018-02-16

Family

ID=49367260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210094554.3A Active CN103365896B (zh) 2012-04-01 2012-04-01 一种确定目标字符序列对应的语调信息的方法与设备

Country Status (1)

Country Link
CN (1) CN103365896B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
CN102184195A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于获取字符串间相似度的方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788098B2 (en) * 2004-08-02 2010-08-31 Nokia Corporation Predicting tone pattern information for textual information used in telecommunication systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
CN102184195A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于获取字符串间相似度的方法、装置和设备

Also Published As

Publication number Publication date
CN103365896A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN102612691B (zh) 给文本评分的方法和系统
JP5238886B2 (ja) キーワード抽出装置、およびプログラム
CN103430172B (zh) 检索装置、检索方法及程序
US9418145B2 (en) Method and system for visualizing documents
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
CN104090904B (zh) 一种用于提供目标搜索结果的方法与设备
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US9633110B2 (en) Enrichment of data using a semantic auto-discovery of reference and visual data
CN111143547B (zh) 一种基于知识图谱的大数据显示方法
CN106528846A (zh) 一种检索方法及装置
CN110427614A (zh) 段落层级的构建方法、装置、电子设备及存储介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN106484135A (zh) 一种用于提供输入候选项的方法与装置
CN112612845A (zh) 一种组织机构视图实现方法、装置、电子设备及可读存储介质
JP2024507902A (ja) 情報検索方法、装置、電子機器および記憶媒体
CN104866091B (zh) 一种用于在计算机设备中输出音效信息的方法和装置
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN103365896B (zh) 一种确定目标字符序列对应的语调信息的方法与设备
JP2011103027A (ja) 文書表示装置、文書表示方法および文書表示プログラム
JP2011059814A (ja) 文書群処理装置、文書群処理方法および文書群処理プログラム
CN103870472B (zh) 一种复合词挖掘方法及装置
CN1629835A (zh) 电子文档的计算机辅助写作和浏览的方法及装置
CN103514192B (zh) 数据处理方法和数据处理设备
JP2011022809A (ja) 重要語抽出方法、装置、プログラム、記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant