CN106409291B - 一种语音搜索列表的实现方法 - Google Patents
一种语音搜索列表的实现方法 Download PDFInfo
- Publication number
- CN106409291B CN106409291B CN201610971069.8A CN201610971069A CN106409291B CN 106409291 B CN106409291 B CN 106409291B CN 201610971069 A CN201610971069 A CN 201610971069A CN 106409291 B CN106409291 B CN 106409291B
- Authority
- CN
- China
- Prior art keywords
- list
- speech recognizer
- vocabulary
- speech
- unigram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语音搜索列表的实现方法,包括如下步骤:(1)列表预处理;(2)语音识别;(3)计算似然估计值;(4)列表搜索。本发明的有益效果为:很好的解决了语音搜索列表的灵活性和复杂性的矛盾,降低了计算复杂性,同时增加了灵活性。
Description
技术领域
本发明涉及搜索技术领域,尤其是一种语音搜索列表的实现方法。
背景技术
现有技术中,语音识别系统在进行搜索列表时,无法将列表项的属性关联;或者即使关联,但需要手工排列组合可能的发音。例如,对于第一种情况,在通讯录里有总务科张三和人事科章山,两个人名发音相似,如果用户说“打电话给人事科章山”,语音识别可能会返回“打电话给人事科张三”。这里人名和部门这两个属性没有关联,导致识别出错误的联系人。再例如,对于第二种情况,用户需要在附近的饭店列表中选出“麦当劳(珠江路5000号)”和“肯德基(长江路6000号)”,需要进行排列所有可能的发音序列。比如对于第一个麦当劳,就生成如下发音序列:“麦当劳”,“珠江路麦当劳”,“珠江路5000号麦当劳”,“珠江路5000号”和“珠江路”;对于第二个肯德基,就生成如下发音序列:“肯德基”,“长江路肯德基”,“长江路6000号肯德基”,“长江路6000号”和“长江路”。这种属性关联方法的缺陷为不灵活,程序必须列出所有序列;运算量大,随着列表属性增加,可能的发音序列变得很大。综合以上两种情况,现有技术没有解决好灵活性和复杂性的矛盾。
发明内容
本发明所要解决的技术问题在于,提供一种语音搜索列表的实现方法,可以降低计算复杂性,同时增加了灵活性。
为解决上述技术问题,本发明提供一种语音搜索列表的实现方法,包括如下步骤:
(1)列表预处理:
一个列表,提取每个列表项c的所有属性的关键字,切词且去除重复,得到词汇样本V(v1,v2,…vn),有n个独立的词;
(2)语音识别
将词汇样本V传送给语音识别器,并加载UNIGRAM语言模型,进行语音识别,得到N-BEST结果R,其中每个结果t为识别出的词,w为该词的权重;
(3)计算似然估计值
对每个列表项c,计算其归一化的似然估计值lik(c);
lik(c)=Πr∈Rf(c|r)
f(c|r)=Πt∈rg(t|c)
其中,a、b为预设的常数,c为一个列表项,r为一个语音识别结果,t为一个识别出的词,w为一个识别出的词t的权重;
(4)列表搜索;根据列表项的似然估计值重新排序,选出似然估计值最大的列表项。
优选的,步骤(1)中,词汇样本V必须去除重复词汇。
优选的,步骤(2)中,语音识别器装载词汇样本V和UNIGRAM语言模型,识别输入语音数据并输出N-BEST结果。
优选的,步骤(2)中,语音识别器加载的UNIGRAM语言模型是动态生成的,而UNIGRAM语法是固定的,不依赖于列表而变化,每种语言只需有一个UNIGRAM语法。
优选的,步骤(2)中,语音识别器为嵌入式语音识别器或任何支持N-BEST结果的语音识别器。
优选的,步骤(2)中,权重为概率或信任值。
优选的,步骤(2)中,词汇样本V中可以增加常用连接词和介词。
优选的,步骤(3)中,计算似然估计值基于朴素贝叶斯概率模型,并且使用了所有N-BEST结果。
优选的,步骤(3)中,a、b为预设的常数,根据试验数据来设置。
优选的,步骤(3)中,计算似然估计值方法与语音识别器无关。
本发明的有益效果为:很好的解决了语音搜索列表的灵活性和复杂性的矛盾,降低了计算复杂性,同时增加了灵活性。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的语音识别流程示意图。
图3是本发明的已获取N-BEST结果后的实现方法流程示意图。
具体实施方式
如图1和图2所示,一种语音搜索列表的实现方法,包括如下步骤:
(1)列表预处理:
一个列表,提取每个列表项c的所有属性的关键字,切词且去除重复,得到词汇样本V(v1,v2,…vn),有n个独立的词;
(2)语音识别
将词汇样本V传送给语音识别器,进行语音识别,得到N-BEST结果R,其中每个结果t为识别出的词,w为该词的权重;权重为概率或信任值等;N-BEST为一种搜索算法,结果为N个最优路径;
(3)计算似然估计值
对每个列表项c,计算其归一化的似然估计值lik(c);
lik(c)=Πr∈Rf(c|r)
f(c|r)=Πt∈rg(t|c)
其中,a、b为预设的常数,c为一个列表项,r为一个语音识别结果,t为一个识别出的词,w为一个识别出的词t的权重;
(4)列表搜索;根据列表项的似然估计值重新排序,选出似然估计值最大的列表项。
如图3所示,为已获取N-BEST结果后的实现方法流程示意图。依次取下一个列表项c,初始化似然估计值lik(c)=1,取下一个N-BEST结果r,取下一个词t;若r包含t,则lik(c)=lik(c)*wt*a;若r不包含t,则lik(c)=lik(c)*wt*b;获得似然估计值lik(c);若还有未取词,则继续取词重复上述步骤;若还有未取的N-BEST结果,则继续取下一个N-BEST结果,重复上述步骤。
以用户需要在列表中使用语音选择一个快餐店为例。用户需要在列表
[{“id”:0,“name”:”麦当劳”,“address”:”珠江路5000号”,“phone”:“555-12345678”},
{“id”:1,“name”:”肯德基”,“address”:”长江路6000号”,“phone”:“555-87654321”}]中使用语音选择一个快餐店,具体步骤如下:
(1)提取关键字,得到列表[“麦当劳”,“珠江路5000号”,“555-12345678”,“肯德基”,“长江路6000号”,“555-87654321”];
(2)切词,并且除去重复,得到词汇样本列表V=[“麦当劳”,“珠江路”,“5000号”,“555-12345678”,“12345678”“肯德基”,“长江路”,“6000号”,“555-87654321”,“87654321”];
(3)将此词汇样本V传给语音识别器,每个语音识别器都有特定的方法;
(4)语音识别,假设用户说“珠江路麦当劳”,得到N-BEST结果R=
{{“珠江路”:0.9,“麦当劳”:0.8},
{{“珠江路”:0.8,“麦当劳”:0.6,“6000号”:0.2},
{“珠江路”:0.7,“肯德基”:0.2,“6000号”:0.1}}
(5)计算似然估计值,假设(a=0.5,b=0.1)
麦当劳的似然估计值lik(0)=(0.5*0.9)*(0.5*0.8)*(0.5*0.8)*(0.5*0.6)*(0.1*0.2)*(0.5*0.7)*(0.1*.0.2)*(0.1*0.1)=3e-8
肯德基的似然估计值lik(1)=(0.1*0.9)*(0.1*0.8)*(0.1*0.8)*(0.1*0.6)*(0.5*0.2)*(0.1*0.7)*(0.5*0.2)*(0.5*0.1)=1e-9;
(6)重新排序,选出似然估计值最大的列表项“麦当劳”,因为麦当劳的似然估计值大于肯德基的似然估计值。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。
Claims (10)
1.一种语音搜索列表的实现方法,其特征在于,包括如下步骤:
(1)列表预处理:
一个列表,提取每个列表项c的所有属性的关键字,切词且去除重复,得到词汇样本V(v1,v2,…vn),有n个独立的词;
(2)语音识别
将词汇样本V传送给语音识别器,并加载UNIGRAM语言模型,进行语音识别,得到N-BEST结果R,其中每个结果t为识别出的词,w为该词的权重;
(3)计算似然估计值
对每个列表项c,计算其归一化的似然估计值lik(c);
lik(c)=Πr∈Rf(c|r)
f(c|r)=Πt∈rg(t|c)
其中,a、b为预设的常数,c为一个列表项,r为一个语音识别结果,t为一个识别出的词,w为一个识别出的词t的权重;
(4)列表搜索;根据列表项的似然估计值重新排序,选出似然估计值最大的列表项。
2.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(1)中,词汇样本V必须去除重复词汇。
3.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,语音识别器装载词汇样本V和UNIGRAM语言模型,识别输入语音数据并输出N-BEST结果。
4.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,语音识别器加载的UNIGRAM语言模型是动态生成的,而UNIGRAM语法是固定的,不依赖于列表而变化,每种语言只需有一个UNIGRAM语法。
5.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,语音识别器为嵌入式语音识别器或任何支持N-BEST结果的语音识别器。
6.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,权重为概率或信任值。
7.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,词汇样本V中增加常用连接词和介词。
8.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(3)中,计算似然估计值基于朴素贝叶斯概率模型,并且使用了所有N-BEST结果。
9.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(3)中,a、b为预设的常数,根据试验数据来设置。
10.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(3)中,计算似然估计值方法与语音识别器无关。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610971069.8A CN106409291B (zh) | 2016-11-04 | 2016-11-04 | 一种语音搜索列表的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610971069.8A CN106409291B (zh) | 2016-11-04 | 2016-11-04 | 一种语音搜索列表的实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106409291A CN106409291A (zh) | 2017-02-15 |
CN106409291B true CN106409291B (zh) | 2019-12-17 |
Family
ID=58014824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610971069.8A Active CN106409291B (zh) | 2016-11-04 | 2016-11-04 | 一种语音搜索列表的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106409291B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
EP0964389A2 (en) * | 1998-06-12 | 1999-12-15 | ATR Interpreting Telecommunications Research Laboratories | Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences |
CN101777347A (zh) * | 2009-12-07 | 2010-07-14 | 中国科学院自动化研究所 | 一种模型互补的汉语重音识别方法及系统 |
CN103559289A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词检索方法及系统 |
CN103594087A (zh) * | 2013-11-08 | 2014-02-19 | 安徽科大讯飞信息科技股份有限公司 | 提高口语评测性能的方法及系统 |
-
2016
- 2016-11-04 CN CN201610971069.8A patent/CN106409291B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
EP0964389A2 (en) * | 1998-06-12 | 1999-12-15 | ATR Interpreting Telecommunications Research Laboratories | Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences |
CN101777347A (zh) * | 2009-12-07 | 2010-07-14 | 中国科学院自动化研究所 | 一种模型互补的汉语重音识别方法及系统 |
CN103559289A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词检索方法及系统 |
CN103594087A (zh) * | 2013-11-08 | 2014-02-19 | 安徽科大讯飞信息科技股份有限公司 | 提高口语评测性能的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106409291A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875789B2 (en) | Language models using domain-specific model components | |
US9842592B2 (en) | Language models using non-linguistic context | |
US10719507B2 (en) | System and method for natural language processing | |
US6877001B2 (en) | Method and system for retrieving documents with spoken queries | |
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US8145484B2 (en) | Speech processing with predictive language modeling | |
US8762153B2 (en) | System and method for improving name dialer performance | |
US20030204399A1 (en) | Key word and key phrase based speech recognizer for information retrieval systems | |
US20070179784A1 (en) | Dynamic match lattice spotting for indexing speech content | |
WO2016044321A1 (en) | Integration of domain information into state transitions of a finite state transducer for natural language processing | |
US20080059172A1 (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance | |
WO2010075015A2 (en) | Assigning an indexing weight to a search term | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
JP5951105B2 (ja) | 検索装置 | |
JP5112978B2 (ja) | 音声認識装置、音声認識システムおよびプログラム | |
CN106409291B (zh) | 一种语音搜索列表的实现方法 | |
CN111309926B (zh) | 一种实体链接方法、装置及电子设备 | |
CN104731918A (zh) | 一种语音搜索方法及装置 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
CN110164445B (zh) | 语音识别方法、装置、设备及计算机存储介质 | |
CN111833867A (zh) | 语音指令识别方法、装置、可读存储介质和电子设备 | |
US7580942B2 (en) | Indexing and ranking processes for directory assistance services | |
EP1895748B1 (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210625 Address after: 211100 3016-2, Kechuang building, No.7, Nanyou Road, Jiangning Development Zone, Nanjing City, Jiangsu Province Patentee after: Nanjing sujifu Information Technology Co.,Ltd. Address before: Room 1218, Cuiping science and Technology Innovation Park, No. 37, Jiangjun Avenue, Jiangning District, Nanjing City, Jiangsu Province, 211100 Patentee before: NANJING KANKAN INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |