CN102722525A - 通讯录人名的语言模型建立方法、语音搜索方法及其系统 - Google Patents

通讯录人名的语言模型建立方法、语音搜索方法及其系统 Download PDF

Info

Publication number
CN102722525A
CN102722525A CN2012101513814A CN201210151381A CN102722525A CN 102722525 A CN102722525 A CN 102722525A CN 2012101513814 A CN2012101513814 A CN 2012101513814A CN 201210151381 A CN201210151381 A CN 201210151381A CN 102722525 A CN102722525 A CN 102722525A
Authority
CN
China
Prior art keywords
name
syllable
language model
name information
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101513814A
Other languages
English (en)
Inventor
曹立新
万广鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2012101513814A priority Critical patent/CN102722525A/zh
Publication of CN102722525A publication Critical patent/CN102722525A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种通讯录人名的语言模型建立方法、语音搜索方法及其系统,从文本搜索的搜索日志中搜集人名信息;获取对搜集到的人名信息进行的音节标注;利用对人名信息进行的音节标注训练人名音节语言模型。还可以进一步将人名音节语言模型和数字概率模型进行合并,且设置音节到数字、数字到音节的概率为0,得到最终语言模型。客户端接收用户的语音请求,将语音请求发送给服务器;服务器利用人名音节语言模型或者最终语言模型对语音请求进行识别,将识别得到的人名音节返回给客户端;客户端利用服务器返回的人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户。通过本发明能够提高通讯录的语音搜索准确率。

Description

通讯录人名的语言模型建立方法、语音搜索方法及其系统
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种通讯录人名的语言模型建立方法、语音搜索方法及其系统。
【背景技术】
随着语音识别技术的快速发展,对常见语音的识别已经能够达到较高的准确率,由于人名基本不具有语言学信息,很难作为“字对”,因此对于人名的语音识别一直是该领域的难点。智能手机终端的流行使得通过智能手机终端随时随地实现语音搜索成为可能,为用户操作带来了便捷,其中通讯录的语音查询是用户希望输入人名的语音时,能够查询到该人名对应的通讯录信息,但正是由于人名的语音识别的实现难度,使得通讯录的语音搜索一直不能具有较好的准确率。
【发明内容】
本发明提供了一种通讯录人名的语言模型建立方法、语音搜索方法及其系统,以便于提高通讯录的语音搜索准确率。
具体技术方案如下:
一种通讯录人名的语言模型建立方法,该方法包括:
S1、从文本搜索的搜索日志中搜集人名信息;
S2、获取对搜集到的人名信息进行的音节标注;
S3、利用对人名信息进行的音节标注训练人名音节语言模型,所述人名音节语言模型包括:在人名信息中音节之间的概率关系。
根据本发明一优选实施例,在所述步骤S1中,通过人工的方式从文本搜索的搜索日志中搜集人名信息;或者,
基于预设的人名提取规则从文本搜索的搜索日志中搜集人名信息;或者,
采用与输入法的人名库进行匹配的方式从文本搜索的搜索日志中搜集人名信息。
根据本发明一优选实施例,在人名信息中音节之间的概率关系通过
Figure BDA00001641942800021
得到,其中P(wn|w1w2...wn-1)为音节w1、w2、...、wn-1按顺序出现且接续音节wn的条件概率;C(w1w2...wn)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续音节wn的次数;∑wC(w1...wn-1w)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续任一音节的次数之和;n为大于1的正整数。
根据本发明一优选实施例,该方法进一步包括:
S4、将所述人名音节语言模型和数字概率模型进行合并,且设置音节到数字、数字到音节的概率为0,得到最终语言模型;其中所述数字概率模型包括在电话号码中数字之间的概率关系。
一种语音搜索方法,该方法包括:
A1、客户端接收用户的语音请求,将所述语音请求发送给服务器;
A2、所述服务器利用由所述语言模型建立方法训练得到的人名音节语言模型或者由所述语言模型建立方法得到的最终语言模型对所述语音请求进行识别,将识别得到的人名音节返回给所述客户端;
A3、所述客户端利用所述服务器返回的所述人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户。
根据本发明一优选实施例,当由所述语言模型建立方法得到最终语言模型时,所述语音搜索方法还包括:
B1、客户端接收用户的语音请求,将所述语音请求发送给服务器;
B2、所述服务器利用所述最终语言模型对语音请求进行识别,将识别得到的数字串返回给所述客户端;
B3、所述客户端利用所述服务器返回的数字串到本地通讯录中进行匹配,得到匹配结果展现给用户。
一种通讯录人名的语言模型建立系统,该系统包括:
人名搜集单元,用于从文本搜索的搜索日志中搜集人名信息;
音节标注单元,用于获取对搜集到的人名信息进行的音节标注;
模型训练单元,用于利用对人名信息进行的音节标注训练人名音节语言模型,所述人名音节语言模型包括:在人名信息中音节之间的概率关系。
根据本发明一优选实施例,所述人名搜集单元通过人工的方式从文本搜索的搜索日志中搜集人名信息;或者,
基于预设的人名提取规则从文本搜索的搜索日志中搜集人名信息;或者,
采用与输入法的人名库进行匹配的方式从文本搜索的搜索日志中搜集人名信息。
根据本发明一优选实施例,所述模型训练单元通过
Figure BDA00001641942800031
得到人名信息中音节之间的概率关系,其中P(wn|w1w2...wn-1)为音节w1、w2、...、wn-1按顺序出现且接续音节wn的条件概率;C(w1w2...wn)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续音节wn的次数;∑wC(w1...wn-1w)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续任一音节的次数之和;n为大于1的正整数。
根据本发明一优选实施例,该系统还包括:模型合并单元,用于将所述人名音节语言模型和数字概率模型进行合并,且设置音节到数字、数字到音节的概率为0,得到最终语言模型;其中所述数字概率模型包括在电话号码中数字之间的概率关系。
一种语音搜索系统,该装置包括:
客户端,用于接收用户的语音请求,将所述语音请求发送给服务器;利用所述服务器返回的人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户;
服务器,用于利用由所述语言模型建立系统训练得到的人名音节语言模型或者由所述语言模型建立系统得到的最终语言模型对所述语音请求进行识别,将识别得到的人名音节返回给所述客户端。
根据本发明一优选实施例,当由所述语言模型建立系统得到最终语言模型时,
所述客户端,还用于利用所述服务器返回的数字串到本地通讯录中进行匹配,得到匹配结果展现给用户;
所述服务器,还用于利用所述最终语言模型对语音请求进行识别,将识别得到的数字串返回给所述客户端。
由以上技术方案可以看出,本发明基于从文本搜索日志中搜集人名信息并进行的音节标注训练人名音节语言模型,使得服务器能够基于该人名音节语言模型识别出用户语音请求对应的人名音节,帮助客户端在本地通讯录中匹配到该人名音节对应的通讯录条目,从而提高了通讯录的语音搜索准确率。
【附图说明】
图1为本发明实施例一提供的通讯录人名的语言模型建立方法流程图;
图2为本发明实施例二提供的通讯录人名的语音识别流程图;
图3为本发明实施例三提供的通讯录电话号码的语音识别流程图;
图4为本发明实施例四提供的语言模型建立系统的结构图;
图5为本发明实施例五提供的一种语音搜索系统结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的通讯录人名的语言模型建立方法流程图,如图1所示,该方法包括以下步骤:
步骤101:从文本搜索的搜索日志中搜集人名信息。
本步骤中涉及的文本搜索可以包括但不限于:通过浏览器进行的文本搜索、进行语音搜索时将语音转换为文本后的搜索。
在进行人名信息的搜集时,可以通过人工的方式实现,也可以基于预设的提取规则从文本中提取,还可以采用与输入法的人名库进行匹配的方式获取。以中国的人名为例,由于中国人的人名第一个字为姓,姓是可以枚举的,其他字为名,且通常名的长度在三个字以内,因此预设的提取规则可以为:第一个字与预设的姓词典匹配,名中的倒数N个字与名之后的字不构成词语,其中N小于或等于3。例如:假设搜索日志中存在这样一个句子“恭喜林丹获得北京奥运会羽毛球男单冠军”,其中“林”与预设的姓词典匹配,“丹”与“获”不构成词语,因此可以提取出“林丹”为人名。当然还可以采用其他的提取规则,在此不再一一详述。
步骤102:获取对搜集到的人名信息进行的音节标注。
本步骤实际上就是对人名信息标注出其音节,以便于后续将人名识别转换为音节识别,主要通过人工实现,例如进行如下标注:李雷(li lei)、韩梅梅(han mei mei)、李伟(li wei)。
步骤103:利用对人名信息进行的音节标注训练人名音节语言模型。
通过步骤101和步骤102能够得到大规模的人名信息及其音节标注,以此作为训练语料,训练出人名音节语言模型。该人名音节语言模型的内容为在人名信息中音节之间的概率关系,音节之间的概率关系通过如下公式得到:
P ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . . w n ) Σ w C ( w 1 . . . w n - 1 w ) - - - ( 1 )
其中P(wn|w1w2...wn-1)为音节w1、w2、...、wn-1按顺序出现且接续音节wn的条件概率;C(w1w2...wn)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续音节wn的次数;∑wC(w1...wn-1w)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续任一音节的次数之和;n为大于1的正整数,即训练的人名音节语言模型为n元模型(n-gram)。由于人名通常较短,因此采用的n值通常较小,例如可以为2元或3元。即n取2,或者n取2和3。
另外,在训练人名音节语言模型过程中使用的音节也可以带声调,即在步骤102中对搜集到的人名信息进行音节标注时,可以同时标注出音节的声调,在计算音节之间的概率时,该音节是带声调的音节,不同声调但相同拼音的作为不同的音节。
在执行完本步骤之后,可以直接将人名音节语言模型用于后续的通讯录人名语音识别,另外,由于有时候会用到基于电话号码的通讯录查询,即用户语音输入电话号码,查询通讯录中该电话号码对应的联系人信息,有鉴于此可以进一步执行步骤104。
步骤104:将人名音节语言模型和数字概率模型进行合并,设置音节到数字,数字到音节概率为0,得到最终语言模型。
在本步骤中引入数字概率模型,数字概率模型的设置实际上是采用常用电话号码进行数字之间的概率关系设置。概率关系通过条件概率P′(cm|c1c2...cm-1)体现,P′(cm|c1c2...cm-1)表示数字c1、c2、...、cm-1按顺序出现且接续数字cm的条件概率,这些条件概率可以采用如下方式设置:可以将常用电话号码中数字的条件概率设置的较高,例如10086、10010、110、119、120等常用电话号码中数字的条件概率设置为预设的较高的概率值;将手机号码中前三位常出现的例如131、136、138、139等中数字的条件概率设置为预设的较高的概率值,其他数字的条件概率设置为平均的概率值,例如0-9均设置成十分之一的概率。
在将人名音节语言模型和数字概率模型进行合并时,为了防止产生人名音节和数字混在一起的识别结果,例如识别成“li 0086”,可以在合并后得到的模型中将音节到数字的条件概率、数字到音节的条件概率均设成0的语言模型概率。
基于上述实施例一中步骤103建立的音节标注训练人名音节语言模型或者步骤104建立的最终语言模型均可以实现通讯录人名的语音识别,下面通过实施例二对该语音识别过程进行描述。
实施例二、
图2为本发明实施例二提供的通讯录人名的语音搜索流程图,如图2所示,该流程可以包括以下步骤:
步骤201:客户端接收用户的语音请求,将该语音请求发送给服务器。
本实施例中用户的语音请求主要是指包含人名信息的语音请求,即用户通过语音的方式输入人名,客户端将该语音请求首先发送给服务器进行识别。
步骤202:服务器利用人名音节语言模型或最终语言模型对语音请求进行识别,将识别得到的人名音节返回给客户端。
服务器将语音请求与人名音节语言模型或最终语言模型进行匹配,确定匹配得到的人名音节,该人名音节就是识别结果,至于通过语言模型进行识别的过程与现有技术相同,不再赘述。
步骤203:客户端利用服务器返回的人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户。
通常本地通讯录中存储的是联系人的文本信息条目,每个条目至少包括人名和电话号码,还可以进一步包括email、住址、单位、职务等等。客户端获取到服务器返回的人名音节后,可以将该人名音节与本地通讯录中的人名进行匹配,将匹配到的条目展现给用户。
例如,用户通过语音想要查询“李雷”的通讯录条目,则输入语音请求包含李雷的语音,客户端将该语音请求发送给服务器后,服务器利用建立的人名音节语言模型或最终语言模型进行识别,需要说明的是,由于用户发送的是语音,在识别过程中会同时结合声学模型,这部分内容为已有技术不再赘述。最终识别出语音请求的人名音节为“li lei”,服务器将该人名音节返回给客户端,客户端将“li lei”在本地通讯录中进行匹配,能够匹配到通讯录中“李雷”对应的条目。
另外,由于在中文中,同一音节对应多种汉字的情况十分普遍,例如“lilei”可能匹配到“李雷”、“李磊”、“李蕾”等,如果匹配到多个条目,则可以将多个条目都展现给用户供用户选择其中一个进行诸如拨号、发送短信、发送邮件等进一步处理。
除此之外,实施例一中的步骤104所得到的最终语言模型还可以用于进行通讯录电话号码的识别,参见实施例三。
实施例三、
图3为本发明实施例三提供的通讯录电话号码的语音搜索流程图,如图3所示,该流程可以包括以下步骤:
步骤301:客户端接收用户的语音请求,将该语音请求发送给服务器。
本实施例中用户的语音请求指包含电话号码信息的语音请求,即用户通过语音的方式输入电话号码。
步骤302:服务器利用最终语言模型对语音请求进行识别,将识别得到的数字串返回给客户端。
服务器将语音请求与最终语言模型进行匹配,确定匹配得到的数字串,该数字串就是电话号码的识别结果。
步骤303:客户端利用服务器返回的数字串到本地通讯录中进行匹配,得到匹配结果展现给用户。
在本步骤中将数字串与本地通讯录中的电话号码进行匹配,将匹配到的条目展现给用户。
例如,用户通过语音想要查询“13810012000”的电话号码的联系人信息,则输入语音请求包含该电话号码的语音,客户端将该语音请求发送给服务器后,服务器利用建立的最终语言模型进行识别,同样在识别过程中会同时结合声学模型,最终识别出语音请求的数字串为“13810012000”。服务器将该数字串返回给客户端,客户端将该数字串在本地通讯录中进行匹配,能够匹配到通讯录中“13810012000”对应的条目。
另外,在匹配过程中也可以采用模糊匹配的方式,即可以返回匹配程度最高的条目。用户可能记忆上的失误会将其中某位电话号码记错,则在将数字串与本地通讯录进行匹配的过程中,可以容许若干位数字的不匹配,将匹配程度最高的条目返回给用户。例如,本地通讯录中有的条目存在1位数字与服务器返回的数字串不匹配,有的条目存在3位、4位甚至更多位的数字与服务器返回的数字串不匹配,则可以将1位数字与服务器返回的数字串不匹配的条目展现给用户,供用户选择其中一个进行诸如拨号、发送短信、发送邮件等进一步处理。
以上是对本发明所提供的方法进行的描述,下面对本发明所提供的系统进行详细描述。
实施例四、
图4为本发明实施例四提供的语言模型建立系统的结构图,如图4所示,该系统包括:人名搜集单元400、音节标注单元410和模型训练单元420。
人名搜集单元400,用于从文本搜索的搜索日志中搜集人名信息。其中涉及的文本搜索可以是通过浏览器进行的文本搜索,也可以是进行语音搜索时将语音转换为文本后的搜索。
具体地,在进行人名信息的搜集时,可以通过人工的方式实现,也可以基于预设的提取规则从文本中提取,还可以采用与输入法的人名库进行匹配的方式获取。
音节标注单元410,用于获取对搜集到的人名信息进行的音节标注。这里对人名信息进行的音节标注通过人工实现。
模型训练单元420,用于利用对人名信息进行的音节标注训练人名音节语言模型,人名音节语言模型包括:在人名信息中音节之间的概率关系。具体可以通过
Figure BDA00001641942800091
得到人名信息中音节之间的概率关系,其中P(wn|w1w2...wn-1)为音节w1、w2、...、wn-1按顺序出现且接续音节wn的条件概率;C(w1w2...wn)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续音节wn的次数;∑wC(w1...wn-1w)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续任一音节的次数之和;n为大于1的正整数,即训练的人名音节语言模型为n-gram模型。由于人名通常较短,因此采用的n值通常较小,例如可以为2元或3元。即n取2,或者n取2和3。
另外,音节标注单元410获取到的音节标注也可以带声调,在模型训练单元420计算音节之间的概率时,该音节是带声调的音节,不同声调相同拼音的作为不同的音节。
至此可以直接将人名音节语言模型用于通讯录的人名语音识别,另外由于有时候会用到基于电话号码的通讯录查询,即用户语音输入电话号码,查询通讯录中该电话号码对应的联系人信息,有鉴于此该系统可以进一步包括:模型合并单元430,用于将人名音节语言模型和数字概率模型进行合并,且设置音节到数字、数字到音节的概率为0,得到最终语言模型;其中数字概率模型包括在电话号码中数字之间的概率关系。
在此模型合并单元430引入数字概率模型,该数字概率模型的设置实际上是采用常用电话号码进行数字之间的概率关系设置。概率关系通过条件概率P′(cm|c1c2...cm-1)体现,P′(cm|c1c2...cm-1)表示数字c1、c2、...、cm-1按顺序出现且接续数字cm的条件概率,这些条件概率可以采用如下方式设置:可以将常用电话号码中数字的条件概率设置的较高,例如10086、10010、110、119、120等常用电话号码中数字的条件概率设置为预设的较高的概率值;将手机号码中前三位常出现的例如131、136、138、139等中数字的条件概率设置为预设的较高的概率值,其他数字的条件概率设置为平均的概率值,例如0-9均设置成十分之一的概率。
实施例五、
图5为本发明实施例五提供的一种语音搜索系统结构图,如图5所示,该装置包括:
客户端,用于接收用户的语音请求,将语音请求发送给服务器;利用服务器返回的人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户。
服务器,用于利用由实施例一的语言模型建立系统训练得到的人名音节语言模型(这种情况的连接关系图中未示出)或者最终语言模型对语音请求进行识别,将识别得到的人名音节返回给客户端。
本实施例中在进行针对通讯录人名的语音识别时可以基于人名音节语言模型,也可以基于合并了数字概率模型的最终语言模型,但进行针对通讯录电话号码的语音识别时,仅能够基于最终语言模型,此时的识别系统参见实施例六。
实施例六、
本实施例中采用的系统结构与图5中相同,如图5所示,该系统包括:
客户端,用于接收用户的语音请求,将语音请求发送给服务器;利用服务器返回的数字串到本地通讯录中进行匹配,得到匹配结果展现给用户。
服务器,用于利用由实施例一中的语言模型建立系统得到的最终语言模型对语音请求进行识别,将识别得到的数字串返回给客户端。其中匹配过程中服务器可以采用模糊匹配的方式,返回匹配程度最高的条目。
实际上,由于客户端接收到的语音请求既可能是包含电话号码的语音请求,也可能是包含人名的语音请求,而需要服务器无论针对哪种请求均能够实现语音识别,所以上述实施例五和实施例所示的语音识别系统通常由一套系统来完成。
由以上描述可以看出,本发明提供的方法和系统具备以下优点:
1)本发明基于从文本搜索日志中搜集人名信息并进行的音节标注训练人名音节语言模型,使得服务器能够基于该人名音节语言模型识别出用户语音请求对应的人名音节,帮助客户端在本地通讯录中匹配到该人名音节对应的通讯录条目。需要说明的是,在服务器端并不是直接实现人名的具体识别,由于服务器端通常无法获得客户端具体的通讯录信息,如果直接在服务器端实现人名的具体识别,则需要基于海量的人名训练具体人名的模型,这样准确率会比较低,而本发明是实现人名的音节识别,由客户端基于音节搜索本地通讯录,相比较而言准确率得到了提升。
2)本发明通过合并人名音节语言模型和数字概率模型,并设置音节到数字,数字到音节概率为0,得到最终语言模型,使得不仅基于该最终语言模型能够实现人名和电话号码的语音识别,更能够防止产生人名音节和数字混在一起的识别结果。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种通讯录人名的语言模型建立方法,其特征在于,该方法包括:
S1、从文本搜索的搜索日志中搜集人名信息;
S2、获取对搜集到的人名信息进行的音节标注;
S3、利用对人名信息进行的音节标注训练人名音节语言模型,所述人名音节语言模型包括:在人名信息中音节之间的概率关系。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,通过人工的方式从文本搜索的搜索日志中搜集人名信息;或者,
基于预设的人名提取规则从文本搜索的搜索日志中搜集人名信息;或者,
采用与输入法的人名库进行匹配的方式从文本搜索的搜索日志中搜集人名信息。
3.根据权利要求1所述的方法,其特征在于,在人名信息中音节之间的概率关系通过
Figure FDA00001641942700011
得到,其中P(wn|w1w2...wn-1)为音节w1、w2、...、wn-1按顺序出现且接续音节wn的条件概率;C(w1w2...wn)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续音节wn的次数;∑wC(w1...wn-1w)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续任一音节的次数之和;n为大于1的正整数。
4.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
S4、将所述人名音节语言模型和数字概率模型进行合并,且设置音节到数字、数字到音节的概率为0,得到最终语言模型;其中所述数字概率模型包括在电话号码中数字之间的概率关系。
5.一种语音搜索方法,其特征在于,该方法包括:
A1、客户端接收用户的语音请求,将所述语音请求发送给服务器;
A2、所述服务器利用由权利要求1至4任一权项所述语言模型建立方法训练得到的人名音节语言模型或者由权利要求4所述语言模型建立方法得到的最终语言模型对所述语音请求进行识别,将识别得到的人名音节返回给所述客户端;
A3、所述客户端利用所述服务器返回的所述人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户。
6.根据权利要求5所述的语音搜索方法,其特征在于,当由权利要求4所述语言模型建立方法得到最终语言模型时,所述语音搜索方法还包括:
B1、客户端接收用户的语音请求,将所述语音请求发送给服务器;
B2、所述服务器利用所述最终语言模型对语音请求进行识别,将识别得到的数字串返回给所述客户端;
B3、所述客户端利用所述服务器返回的数字串到本地通讯录中进行匹配,得到匹配结果展现给用户。
7.一种通讯录人名的语言模型建立系统,其特征在于,该系统包括:
人名搜集单元,用于从文本搜索的搜索日志中搜集人名信息;
音节标注单元,用于获取对搜集到的人名信息进行的音节标注;
模型训练单元,用于利用对人名信息进行的音节标注训练人名音节语言模型,所述人名音节语言模型包括:在人名信息中音节之间的概率关系。
8.根据权利要求7所述的系统,其特征在于,所述人名搜集单元通过人工的方式从文本搜索的搜索日志中搜集人名信息;或者,
基于预设的人名提取规则从文本搜索的搜索日志中搜集人名信息;或者,
采用与输入法的人名库进行匹配的方式从文本搜索的搜索日志中搜集人名信息。
9.根据权利要求7所述的系统,其特征在于,所述模型训练单元通过
Figure FDA00001641942700021
得到人名信息中音节之间的概率关系,其中
P(wn|w1w2...wn-1)为音节w1、w2、...、wn-1按顺序出现且接续音节wn的条件概率;C(w1w2...wn)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续音节wn的次数;∑wC(w1...wn-1w)为在搜集到的人名信息中音节w1、w2、...、wn-1按顺序出现且接续任一音节的次数之和;n为大于1的正整数。
10.根据权利要求7所述的系统,其特征在于,该系统还包括:模型合并单元,用于将所述人名音节语言模型和数字概率模型进行合并,且设置音节到数字、数字到音节的概率为0,得到最终语言模型;其中所述数字概率模型包括在电话号码中数字之间的概率关系。
11.一种语音搜索系统,其特征在于,该装置包括:
客户端,用于接收用户的语音请求,将所述语音请求发送给服务器;利用所述服务器返回的人名音节到本地通讯录中进行匹配,得到匹配结果展现给用户;
服务器,用于利用由权利要求7至10任一权项所述语言模型建立系统训练得到的人名音节语言模型或者由权利要求10所述语言模型建立系统得到的最终语言模型对所述语音请求进行识别,将识别得到的人名音节返回给所述客户端。
12.根据权利要求11所述的语音搜索系统,其特征在于,当由权利要求10所述语言模型建立系统得到最终语言模型时,
所述客户端,还用于利用所述服务器返回的数字串到本地通讯录中进行匹配,得到匹配结果展现给用户;
所述服务器,还用于利用所述最终语言模型对语音请求进行识别,将识别得到的数字串返回给所述客户端。
CN2012101513814A 2012-05-15 2012-05-15 通讯录人名的语言模型建立方法、语音搜索方法及其系统 Pending CN102722525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101513814A CN102722525A (zh) 2012-05-15 2012-05-15 通讯录人名的语言模型建立方法、语音搜索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101513814A CN102722525A (zh) 2012-05-15 2012-05-15 通讯录人名的语言模型建立方法、语音搜索方法及其系统

Publications (1)

Publication Number Publication Date
CN102722525A true CN102722525A (zh) 2012-10-10

Family

ID=46948286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101513814A Pending CN102722525A (zh) 2012-05-15 2012-05-15 通讯录人名的语言模型建立方法、语音搜索方法及其系统

Country Status (1)

Country Link
CN (1) CN102722525A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400576A (zh) * 2013-07-18 2013-11-20 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
CN103870489A (zh) * 2012-12-13 2014-06-18 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
WO2014101826A1 (zh) * 2012-12-28 2014-07-03 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN104217720A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 一种基于短连接实现通讯录语音识别的方法、系统和装置
CN104216896A (zh) * 2013-05-31 2014-12-17 腾讯科技(深圳)有限公司 一种查找联系人信息的方法及装置
CN104318150A (zh) * 2014-11-21 2015-01-28 长江大学 基于语音查询的数据库访问认证装置
CN104580723A (zh) * 2014-12-31 2015-04-29 深圳市金立通信设备有限公司 一种终端
CN104601811A (zh) * 2014-12-31 2015-05-06 深圳市金立通信设备有限公司 一种联系人信息处理方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN106201011A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 通信信息的检索方法和装置及终端设备
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN107632718A (zh) * 2017-08-03 2018-01-26 百度在线网络技术(北京)有限公司 语音输入中的数字信息的推荐方法、装置与可读介质
CN108122555A (zh) * 2017-12-18 2018-06-05 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备
CN112233664A (zh) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 网络的训练方法、装置、设备以及存储介质
CN113808593A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049388A1 (en) * 2001-09-05 2004-03-11 Roth Daniel L. Methods, systems, and programming for performing speech recognition
CN1835077A (zh) * 2005-03-14 2006-09-20 台达电子工业股份有限公司 中文人名自动语音辨识输入方法及系统
CN1835076A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法
CN101218625A (zh) * 2005-07-07 2008-07-09 国际商业机器公司 用于移动设备的使用拼写识别的字典查找
CN101833381A (zh) * 2010-05-19 2010-09-15 北京友录在线科技发展有限公司 一种手持设备通讯录的拼音反查方法
CN102023995A (zh) * 2009-09-22 2011-04-20 株式会社理光 语音检索设备和语音检索方法
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
CN102193920A (zh) * 2010-03-04 2011-09-21 腾讯科技(深圳)有限公司 一种人名词库生成方法、装置及文字输入系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049388A1 (en) * 2001-09-05 2004-03-11 Roth Daniel L. Methods, systems, and programming for performing speech recognition
CN1835077A (zh) * 2005-03-14 2006-09-20 台达电子工业股份有限公司 中文人名自动语音辨识输入方法及系统
CN101218625A (zh) * 2005-07-07 2008-07-09 国际商业机器公司 用于移动设备的使用拼写识别的字典查找
CN1835076A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法
CN102023995A (zh) * 2009-09-22 2011-04-20 株式会社理光 语音检索设备和语音检索方法
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
CN102193920A (zh) * 2010-03-04 2011-09-21 腾讯科技(深圳)有限公司 一种人名词库生成方法、装置及文字输入系统
CN101833381A (zh) * 2010-05-19 2010-09-15 北京友录在线科技发展有限公司 一种手持设备通讯录的拼音反查方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
毕力格图: "基于HMM建模的蒙古语连续语音识别系统的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
黄顺珍 等: ""基于拼音模型的声学层识别的研究"", 《中文信息学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870489A (zh) * 2012-12-13 2014-06-18 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
CN103870489B (zh) * 2012-12-13 2016-12-21 北京信息科技大学 基于搜索日志的中文人名自扩展识别方法
WO2014101826A1 (zh) * 2012-12-28 2014-07-03 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN104217720A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 一种基于短连接实现通讯录语音识别的方法、系统和装置
CN104216896A (zh) * 2013-05-31 2014-12-17 腾讯科技(深圳)有限公司 一种查找联系人信息的方法及装置
CN104216896B (zh) * 2013-05-31 2018-11-16 腾讯科技(深圳)有限公司 一种查找联系人信息的方法及装置
CN103400576A (zh) * 2013-07-18 2013-11-20 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
CN103400576B (zh) * 2013-07-18 2015-11-25 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
CN104318150A (zh) * 2014-11-21 2015-01-28 长江大学 基于语音查询的数据库访问认证装置
CN104580723A (zh) * 2014-12-31 2015-04-29 深圳市金立通信设备有限公司 一种终端
CN104601811A (zh) * 2014-12-31 2015-05-06 深圳市金立通信设备有限公司 一种联系人信息处理方法
CN105654945A (zh) * 2015-10-29 2016-06-08 乐视致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
US11664020B2 (en) 2015-11-06 2023-05-30 Alibaba Group Holding Limited Speech recognition method and apparatus
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN106201011A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 通信信息的检索方法和装置及终端设备
CN106201011B (zh) * 2016-06-30 2019-12-13 北京安云世纪科技有限公司 通信信息的检索方法和装置及终端设备
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN107632718A (zh) * 2017-08-03 2018-01-26 百度在线网络技术(北京)有限公司 语音输入中的数字信息的推荐方法、装置与可读介质
CN108122555A (zh) * 2017-12-18 2018-06-05 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备
CN113808593A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
CN112233664A (zh) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 网络的训练方法、装置、设备以及存储介质
CN112233664B (zh) * 2020-10-15 2021-11-09 北京百度网讯科技有限公司 语义预测网络的训练方法、装置、设备以及存储介质
US11823660B2 (en) 2020-10-15 2023-11-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for training network and storage medium

Similar Documents

Publication Publication Date Title
CN102722525A (zh) 通讯录人名的语言模型建立方法、语音搜索方法及其系统
CN101199122B (zh) 使用语言模块扩展通配符
US7979425B2 (en) Server-side match
CN103294776B (zh) 一种智能手机通讯录模糊搜索的方法
CN101930435B (zh) 机构名称检索方法及系统
CN103377028A (zh) 用于以语音启动人机界面的方法和系统
CN102117317A (zh) 一种基于语音技术的盲人互联网系统
CN101681365A (zh) 用于分布式语音搜索的方法和装置
CN102902362A (zh) 文字输入方法及系统
CN104991943A (zh) 音乐搜索方法及装置
CN104715063B (zh) 搜索排序方法和装置
WO2012088772A1 (zh) 一种手持设备高效联系人查找方法
CN101459884A (zh) 一种业务处理方法及装置
CN1901041B (zh) 语音字典形成方法、语音识别系统及其方法
CN1731511A (zh) 用于对多语言的姓名进行语音识别的方法和系统
CN109727592A (zh) 基于自然语言语音交互的运维指令执行方法、介质及终端
CN100456293C (zh) 一种信息快捷搜索客户端、系统及方法
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN101114283A (zh) 旅游机
CN101655846A (zh) 中文输入法标点关联方法及装置
CN103186247A (zh) 公式输入方法和系统
CN100422987C (zh) 网络中智能信息处理的方法和系统
CN116561271A (zh) 问答处理方法及装置
TW200947241A (en) Database indexing algorithm and method and system for database searching using the same
CN105608122B (zh) 一种存储电子表单数据的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20121010