CN102722525A

CN102722525A - 通讯录人名的语言模型建立方法、语音搜索方法及其系统

Info

Publication number: CN102722525A
Application number: CN2012101513814A
Authority: CN
Inventors: 曹立新; 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-05-15
Filing date: 2012-05-15
Publication date: 2012-10-10

Abstract

本发明提供了一种通讯录人名的语言模型建立方法、语音搜索方法及其系统，从文本搜索的搜索日志中搜集人名信息；获取对搜集到的人名信息进行的音节标注；利用对人名信息进行的音节标注训练人名音节语言模型。还可以进一步将人名音节语言模型和数字概率模型进行合并，且设置音节到数字、数字到音节的概率为0，得到最终语言模型。客户端接收用户的语音请求，将语音请求发送给服务器；服务器利用人名音节语言模型或者最终语言模型对语音请求进行识别，将识别得到的人名音节返回给客户端；客户端利用服务器返回的人名音节到本地通讯录中进行匹配，得到匹配结果展现给用户。通过本发明能够提高通讯录的语音搜索准确率。

Description

通讯录人名的语言模型建立方法、语音搜索方法及其系统

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种通讯录人名的语言模型建立方法、语音搜索方法及其系统。

【背景技术】

随着语音识别技术的快速发展，对常见语音的识别已经能够达到较高的准确率，由于人名基本不具有语言学信息，很难作为“字对”，因此对于人名的语音识别一直是该领域的难点。智能手机终端的流行使得通过智能手机终端随时随地实现语音搜索成为可能，为用户操作带来了便捷，其中通讯录的语音查询是用户希望输入人名的语音时，能够查询到该人名对应的通讯录信息，但正是由于人名的语音识别的实现难度，使得通讯录的语音搜索一直不能具有较好的准确率。

【发明内容】

本发明提供了一种通讯录人名的语言模型建立方法、语音搜索方法及其系统，以便于提高通讯录的语音搜索准确率。

具体技术方案如下：

一种通讯录人名的语言模型建立方法，该方法包括：

S1、从文本搜索的搜索日志中搜集人名信息；

S2、获取对搜集到的人名信息进行的音节标注；

S3、利用对人名信息进行的音节标注训练人名音节语言模型，所述人名音节语言模型包括：在人名信息中音节之间的概率关系。

根据本发明一优选实施例，在所述步骤S1中，通过人工的方式从文本搜索的搜索日志中搜集人名信息；或者，

基于预设的人名提取规则从文本搜索的搜索日志中搜集人名信息；或者，

采用与输入法的人名库进行匹配的方式从文本搜索的搜索日志中搜集人名信息。

根据本发明一优选实施例，在人名信息中音节之间的概率关系通过

得到，其中P(w_n|w₁w₂...w_n-1)为音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的条件概率；C(w₁w₂...w_n)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的次数；∑_wC(w₁...w_n-1w)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续任一音节的次数之和；n为大于1的正整数。

根据本发明一优选实施例，该方法进一步包括：

S4、将所述人名音节语言模型和数字概率模型进行合并，且设置音节到数字、数字到音节的概率为0，得到最终语言模型；其中所述数字概率模型包括在电话号码中数字之间的概率关系。

一种语音搜索方法，该方法包括：

A1、客户端接收用户的语音请求，将所述语音请求发送给服务器；

A2、所述服务器利用由所述语言模型建立方法训练得到的人名音节语言模型或者由所述语言模型建立方法得到的最终语言模型对所述语音请求进行识别，将识别得到的人名音节返回给所述客户端；

A3、所述客户端利用所述服务器返回的所述人名音节到本地通讯录中进行匹配，得到匹配结果展现给用户。

根据本发明一优选实施例，当由所述语言模型建立方法得到最终语言模型时，所述语音搜索方法还包括：

B1、客户端接收用户的语音请求，将所述语音请求发送给服务器；

B2、所述服务器利用所述最终语言模型对语音请求进行识别，将识别得到的数字串返回给所述客户端；

B3、所述客户端利用所述服务器返回的数字串到本地通讯录中进行匹配，得到匹配结果展现给用户。

一种通讯录人名的语言模型建立系统，该系统包括：

人名搜集单元，用于从文本搜索的搜索日志中搜集人名信息；

音节标注单元，用于获取对搜集到的人名信息进行的音节标注；

模型训练单元，用于利用对人名信息进行的音节标注训练人名音节语言模型，所述人名音节语言模型包括：在人名信息中音节之间的概率关系。

根据本发明一优选实施例，所述人名搜集单元通过人工的方式从文本搜索的搜索日志中搜集人名信息；或者，

根据本发明一优选实施例，所述模型训练单元通过

得到人名信息中音节之间的概率关系，其中P(w_n|w₁w₂...w_n-1)为音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的条件概率；C(w₁w₂...w_n)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的次数；∑_wC(w₁...w_n-1w)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续任一音节的次数之和；n为大于1的正整数。

根据本发明一优选实施例，该系统还包括：模型合并单元，用于将所述人名音节语言模型和数字概率模型进行合并，且设置音节到数字、数字到音节的概率为0，得到最终语言模型；其中所述数字概率模型包括在电话号码中数字之间的概率关系。

一种语音搜索系统，该装置包括：

客户端，用于接收用户的语音请求，将所述语音请求发送给服务器；利用所述服务器返回的人名音节到本地通讯录中进行匹配，得到匹配结果展现给用户；

服务器，用于利用由所述语言模型建立系统训练得到的人名音节语言模型或者由所述语言模型建立系统得到的最终语言模型对所述语音请求进行识别，将识别得到的人名音节返回给所述客户端。

根据本发明一优选实施例，当由所述语言模型建立系统得到最终语言模型时，

所述客户端，还用于利用所述服务器返回的数字串到本地通讯录中进行匹配，得到匹配结果展现给用户；

所述服务器，还用于利用所述最终语言模型对语音请求进行识别，将识别得到的数字串返回给所述客户端。

由以上技术方案可以看出，本发明基于从文本搜索日志中搜集人名信息并进行的音节标注训练人名音节语言模型，使得服务器能够基于该人名音节语言模型识别出用户语音请求对应的人名音节，帮助客户端在本地通讯录中匹配到该人名音节对应的通讯录条目，从而提高了通讯录的语音搜索准确率。

【附图说明】

图1为本发明实施例一提供的通讯录人名的语言模型建立方法流程图；

图2为本发明实施例二提供的通讯录人名的语音识别流程图；

图3为本发明实施例三提供的通讯录电话号码的语音识别流程图；

图4为本发明实施例四提供的语言模型建立系统的结构图；

图5为本发明实施例五提供的一种语音搜索系统结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的通讯录人名的语言模型建立方法流程图，如图1所示，该方法包括以下步骤：

步骤101：从文本搜索的搜索日志中搜集人名信息。

本步骤中涉及的文本搜索可以包括但不限于：通过浏览器进行的文本搜索、进行语音搜索时将语音转换为文本后的搜索。

在进行人名信息的搜集时，可以通过人工的方式实现，也可以基于预设的提取规则从文本中提取，还可以采用与输入法的人名库进行匹配的方式获取。以中国的人名为例，由于中国人的人名第一个字为姓，姓是可以枚举的，其他字为名，且通常名的长度在三个字以内，因此预设的提取规则可以为：第一个字与预设的姓词典匹配，名中的倒数N个字与名之后的字不构成词语，其中N小于或等于3。例如：假设搜索日志中存在这样一个句子“恭喜林丹获得北京奥运会羽毛球男单冠军”，其中“林”与预设的姓词典匹配，“丹”与“获”不构成词语，因此可以提取出“林丹”为人名。当然还可以采用其他的提取规则，在此不再一一详述。

步骤102：获取对搜集到的人名信息进行的音节标注。

本步骤实际上就是对人名信息标注出其音节，以便于后续将人名识别转换为音节识别，主要通过人工实现，例如进行如下标注：李雷(li lei)、韩梅梅(han mei mei)、李伟(li wei)。

步骤103：利用对人名信息进行的音节标注训练人名音节语言模型。

通过步骤101和步骤102能够得到大规模的人名信息及其音节标注，以此作为训练语料，训练出人名音节语言模型。该人名音节语言模型的内容为在人名信息中音节之间的概率关系，音节之间的概率关系通过如下公式得到：

P (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . . w_{n})}{Σ_{w} C (w_{1} . . . w_{n - 1} w)} - - - (1)

其中P(w_n|w₁w₂...w_n-1)为音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的条件概率；C(w₁w₂...w_n)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的次数；∑_wC(w₁...w_n-1w)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续任一音节的次数之和；n为大于1的正整数，即训练的人名音节语言模型为n元模型(n-gram)。由于人名通常较短，因此采用的n值通常较小，例如可以为2元或3元。即n取2，或者n取2和3。

另外，在训练人名音节语言模型过程中使用的音节也可以带声调，即在步骤102中对搜集到的人名信息进行音节标注时，可以同时标注出音节的声调，在计算音节之间的概率时，该音节是带声调的音节，不同声调但相同拼音的作为不同的音节。

在执行完本步骤之后，可以直接将人名音节语言模型用于后续的通讯录人名语音识别，另外，由于有时候会用到基于电话号码的通讯录查询，即用户语音输入电话号码，查询通讯录中该电话号码对应的联系人信息，有鉴于此可以进一步执行步骤104。

步骤104：将人名音节语言模型和数字概率模型进行合并，设置音节到数字，数字到音节概率为0，得到最终语言模型。

在本步骤中引入数字概率模型，数字概率模型的设置实际上是采用常用电话号码进行数字之间的概率关系设置。概率关系通过条件概率P′(c_m|c₁c₂...c_m-1)体现，P′(c_m|c₁c₂...c_m-1)表示数字c₁、c₂、...、c_m-1按顺序出现且接续数字c_m的条件概率，这些条件概率可以采用如下方式设置：可以将常用电话号码中数字的条件概率设置的较高，例如10086、10010、110、119、120等常用电话号码中数字的条件概率设置为预设的较高的概率值；将手机号码中前三位常出现的例如131、136、138、139等中数字的条件概率设置为预设的较高的概率值，其他数字的条件概率设置为平均的概率值，例如0-9均设置成十分之一的概率。

在将人名音节语言模型和数字概率模型进行合并时，为了防止产生人名音节和数字混在一起的识别结果，例如识别成“li 0086”，可以在合并后得到的模型中将音节到数字的条件概率、数字到音节的条件概率均设成0的语言模型概率。

基于上述实施例一中步骤103建立的音节标注训练人名音节语言模型或者步骤104建立的最终语言模型均可以实现通讯录人名的语音识别，下面通过实施例二对该语音识别过程进行描述。

实施例二、

图2为本发明实施例二提供的通讯录人名的语音搜索流程图，如图2所示，该流程可以包括以下步骤：

步骤201：客户端接收用户的语音请求，将该语音请求发送给服务器。

本实施例中用户的语音请求主要是指包含人名信息的语音请求，即用户通过语音的方式输入人名，客户端将该语音请求首先发送给服务器进行识别。

步骤202：服务器利用人名音节语言模型或最终语言模型对语音请求进行识别，将识别得到的人名音节返回给客户端。

服务器将语音请求与人名音节语言模型或最终语言模型进行匹配，确定匹配得到的人名音节，该人名音节就是识别结果，至于通过语言模型进行识别的过程与现有技术相同，不再赘述。

步骤203：客户端利用服务器返回的人名音节到本地通讯录中进行匹配，得到匹配结果展现给用户。

通常本地通讯录中存储的是联系人的文本信息条目，每个条目至少包括人名和电话号码，还可以进一步包括email、住址、单位、职务等等。客户端获取到服务器返回的人名音节后，可以将该人名音节与本地通讯录中的人名进行匹配，将匹配到的条目展现给用户。

例如，用户通过语音想要查询“李雷”的通讯录条目，则输入语音请求包含李雷的语音，客户端将该语音请求发送给服务器后，服务器利用建立的人名音节语言模型或最终语言模型进行识别，需要说明的是，由于用户发送的是语音，在识别过程中会同时结合声学模型，这部分内容为已有技术不再赘述。最终识别出语音请求的人名音节为“li lei”，服务器将该人名音节返回给客户端，客户端将“li lei”在本地通讯录中进行匹配，能够匹配到通讯录中“李雷”对应的条目。

另外，由于在中文中，同一音节对应多种汉字的情况十分普遍，例如“lilei”可能匹配到“李雷”、“李磊”、“李蕾”等，如果匹配到多个条目，则可以将多个条目都展现给用户供用户选择其中一个进行诸如拨号、发送短信、发送邮件等进一步处理。

除此之外，实施例一中的步骤104所得到的最终语言模型还可以用于进行通讯录电话号码的识别，参见实施例三。

实施例三、

图3为本发明实施例三提供的通讯录电话号码的语音搜索流程图，如图3所示，该流程可以包括以下步骤：

步骤301：客户端接收用户的语音请求，将该语音请求发送给服务器。

本实施例中用户的语音请求指包含电话号码信息的语音请求，即用户通过语音的方式输入电话号码。

步骤302：服务器利用最终语言模型对语音请求进行识别，将识别得到的数字串返回给客户端。

服务器将语音请求与最终语言模型进行匹配，确定匹配得到的数字串，该数字串就是电话号码的识别结果。

步骤303：客户端利用服务器返回的数字串到本地通讯录中进行匹配，得到匹配结果展现给用户。

在本步骤中将数字串与本地通讯录中的电话号码进行匹配，将匹配到的条目展现给用户。

例如，用户通过语音想要查询“13810012000”的电话号码的联系人信息，则输入语音请求包含该电话号码的语音，客户端将该语音请求发送给服务器后，服务器利用建立的最终语言模型进行识别，同样在识别过程中会同时结合声学模型，最终识别出语音请求的数字串为“13810012000”。服务器将该数字串返回给客户端，客户端将该数字串在本地通讯录中进行匹配，能够匹配到通讯录中“13810012000”对应的条目。

另外，在匹配过程中也可以采用模糊匹配的方式，即可以返回匹配程度最高的条目。用户可能记忆上的失误会将其中某位电话号码记错，则在将数字串与本地通讯录进行匹配的过程中，可以容许若干位数字的不匹配，将匹配程度最高的条目返回给用户。例如，本地通讯录中有的条目存在1位数字与服务器返回的数字串不匹配，有的条目存在3位、4位甚至更多位的数字与服务器返回的数字串不匹配，则可以将1位数字与服务器返回的数字串不匹配的条目展现给用户，供用户选择其中一个进行诸如拨号、发送短信、发送邮件等进一步处理。

以上是对本发明所提供的方法进行的描述，下面对本发明所提供的系统进行详细描述。

实施例四、

图4为本发明实施例四提供的语言模型建立系统的结构图，如图4所示，该系统包括：人名搜集单元400、音节标注单元410和模型训练单元420。

人名搜集单元400，用于从文本搜索的搜索日志中搜集人名信息。其中涉及的文本搜索可以是通过浏览器进行的文本搜索，也可以是进行语音搜索时将语音转换为文本后的搜索。

具体地，在进行人名信息的搜集时，可以通过人工的方式实现，也可以基于预设的提取规则从文本中提取，还可以采用与输入法的人名库进行匹配的方式获取。

音节标注单元410，用于获取对搜集到的人名信息进行的音节标注。这里对人名信息进行的音节标注通过人工实现。

模型训练单元420，用于利用对人名信息进行的音节标注训练人名音节语言模型，人名音节语言模型包括：在人名信息中音节之间的概率关系。具体可以通过

得到人名信息中音节之间的概率关系，其中P(w_n|w₁w₂...w_n-1)为音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的条件概率；C(w₁w₂...w_n)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的次数；∑_wC(w₁...w_n-1w)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续任一音节的次数之和；n为大于1的正整数，即训练的人名音节语言模型为n-gram模型。由于人名通常较短，因此采用的n值通常较小，例如可以为2元或3元。即n取2，或者n取2和3。

另外，音节标注单元410获取到的音节标注也可以带声调，在模型训练单元420计算音节之间的概率时，该音节是带声调的音节，不同声调相同拼音的作为不同的音节。

至此可以直接将人名音节语言模型用于通讯录的人名语音识别，另外由于有时候会用到基于电话号码的通讯录查询，即用户语音输入电话号码，查询通讯录中该电话号码对应的联系人信息，有鉴于此该系统可以进一步包括：模型合并单元430，用于将人名音节语言模型和数字概率模型进行合并，且设置音节到数字、数字到音节的概率为0，得到最终语言模型；其中数字概率模型包括在电话号码中数字之间的概率关系。

在此模型合并单元430引入数字概率模型，该数字概率模型的设置实际上是采用常用电话号码进行数字之间的概率关系设置。概率关系通过条件概率P′(c_m|c₁c₂...c_m-1)体现，P′(c_m|c₁c₂...c_m-1)表示数字c₁、c₂、...、c_m-1按顺序出现且接续数字c_m的条件概率，这些条件概率可以采用如下方式设置：可以将常用电话号码中数字的条件概率设置的较高，例如10086、10010、110、119、120等常用电话号码中数字的条件概率设置为预设的较高的概率值；将手机号码中前三位常出现的例如131、136、138、139等中数字的条件概率设置为预设的较高的概率值，其他数字的条件概率设置为平均的概率值，例如0-9均设置成十分之一的概率。

实施例五、

图5为本发明实施例五提供的一种语音搜索系统结构图，如图5所示，该装置包括：

客户端，用于接收用户的语音请求，将语音请求发送给服务器；利用服务器返回的人名音节到本地通讯录中进行匹配，得到匹配结果展现给用户。

服务器，用于利用由实施例一的语言模型建立系统训练得到的人名音节语言模型(这种情况的连接关系图中未示出)或者最终语言模型对语音请求进行识别，将识别得到的人名音节返回给客户端。

本实施例中在进行针对通讯录人名的语音识别时可以基于人名音节语言模型，也可以基于合并了数字概率模型的最终语言模型，但进行针对通讯录电话号码的语音识别时，仅能够基于最终语言模型，此时的识别系统参见实施例六。

实施例六、

本实施例中采用的系统结构与图5中相同，如图5所示，该系统包括：

客户端，用于接收用户的语音请求，将语音请求发送给服务器；利用服务器返回的数字串到本地通讯录中进行匹配，得到匹配结果展现给用户。

服务器，用于利用由实施例一中的语言模型建立系统得到的最终语言模型对语音请求进行识别，将识别得到的数字串返回给客户端。其中匹配过程中服务器可以采用模糊匹配的方式，返回匹配程度最高的条目。

实际上，由于客户端接收到的语音请求既可能是包含电话号码的语音请求，也可能是包含人名的语音请求，而需要服务器无论针对哪种请求均能够实现语音识别，所以上述实施例五和实施例所示的语音识别系统通常由一套系统来完成。

由以上描述可以看出，本发明提供的方法和系统具备以下优点：

1)本发明基于从文本搜索日志中搜集人名信息并进行的音节标注训练人名音节语言模型，使得服务器能够基于该人名音节语言模型识别出用户语音请求对应的人名音节，帮助客户端在本地通讯录中匹配到该人名音节对应的通讯录条目。需要说明的是，在服务器端并不是直接实现人名的具体识别，由于服务器端通常无法获得客户端具体的通讯录信息，如果直接在服务器端实现人名的具体识别，则需要基于海量的人名训练具体人名的模型，这样准确率会比较低，而本发明是实现人名的音节识别，由客户端基于音节搜索本地通讯录，相比较而言准确率得到了提升。

2)本发明通过合并人名音节语言模型和数字概率模型，并设置音节到数字，数字到音节概率为0，得到最终语言模型，使得不仅基于该最终语言模型能够实现人名和电话号码的语音识别，更能够防止产生人名音节和数字混在一起的识别结果。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种通讯录人名的语言模型建立方法，其特征在于，该方法包括：

S1、从文本搜索的搜索日志中搜集人名信息；

S2、获取对搜集到的人名信息进行的音节标注；

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1中，通过人工的方式从文本搜索的搜索日志中搜集人名信息；或者，

3.根据权利要求1所述的方法，其特征在于，在人名信息中音节之间的概率关系通过

4.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

5.一种语音搜索方法，其特征在于，该方法包括：

A2、所述服务器利用由权利要求1至4任一权项所述语言模型建立方法训练得到的人名音节语言模型或者由权利要求4所述语言模型建立方法得到的最终语言模型对所述语音请求进行识别，将识别得到的人名音节返回给所述客户端；

6.根据权利要求5所述的语音搜索方法，其特征在于，当由权利要求4所述语言模型建立方法得到最终语言模型时，所述语音搜索方法还包括：

7.一种通讯录人名的语言模型建立系统，其特征在于，该系统包括：

8.根据权利要求7所述的系统，其特征在于，所述人名搜集单元通过人工的方式从文本搜索的搜索日志中搜集人名信息；或者，

9.根据权利要求7所述的系统，其特征在于，所述模型训练单元通过

得到人名信息中音节之间的概率关系，其中

P(w_n|w₁w₂...w_n-1)为音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的条件概率；C(w₁w₂...w_n)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续音节w_n的次数；∑_wC(w₁...w_n-1w)为在搜集到的人名信息中音节w₁、w₂、...、w_n-1按顺序出现且接续任一音节的次数之和；n为大于1的正整数。

10.根据权利要求7所述的系统，其特征在于，该系统还包括：模型合并单元，用于将所述人名音节语言模型和数字概率模型进行合并，且设置音节到数字、数字到音节的概率为0，得到最终语言模型；其中所述数字概率模型包括在电话号码中数字之间的概率关系。

11.一种语音搜索系统，其特征在于，该装置包括：

服务器，用于利用由权利要求7至10任一权项所述语言模型建立系统训练得到的人名音节语言模型或者由权利要求10所述语言模型建立系统得到的最终语言模型对所述语音请求进行识别，将识别得到的人名音节返回给所述客户端。

12.根据权利要求11所述的语音搜索系统，其特征在于，当由权利要求10所述语言模型建立系统得到最终语言模型时，