CN106409291B - 一种语音搜索列表的实现方法 - Google Patents

一种语音搜索列表的实现方法 Download PDF

Info

Publication number
CN106409291B
CN106409291B CN201610971069.8A CN201610971069A CN106409291B CN 106409291 B CN106409291 B CN 106409291B CN 201610971069 A CN201610971069 A CN 201610971069A CN 106409291 B CN106409291 B CN 106409291B
Authority
CN
China
Prior art keywords
list
speech recognizer
vocabulary
speech
unigram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610971069.8A
Other languages
English (en)
Other versions
CN106409291A (zh
Inventor
史剑翊
史剑强
冉剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing sujifu Information Technology Co.,Ltd.
Original Assignee
Nanjing Kankan Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Kankan Mdt Infotech Ltd filed Critical Nanjing Kankan Mdt Infotech Ltd
Priority to CN201610971069.8A priority Critical patent/CN106409291B/zh
Publication of CN106409291A publication Critical patent/CN106409291A/zh
Application granted granted Critical
Publication of CN106409291B publication Critical patent/CN106409291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音搜索列表的实现方法,包括如下步骤:(1)列表预处理;(2)语音识别;(3)计算似然估计值;(4)列表搜索。本发明的有益效果为:很好的解决了语音搜索列表的灵活性和复杂性的矛盾,降低了计算复杂性,同时增加了灵活性。

Description

一种语音搜索列表的实现方法
技术领域
本发明涉及搜索技术领域,尤其是一种语音搜索列表的实现方法。
背景技术
现有技术中,语音识别系统在进行搜索列表时,无法将列表项的属性关联;或者即使关联,但需要手工排列组合可能的发音。例如,对于第一种情况,在通讯录里有总务科张三和人事科章山,两个人名发音相似,如果用户说“打电话给人事科章山”,语音识别可能会返回“打电话给人事科张三”。这里人名和部门这两个属性没有关联,导致识别出错误的联系人。再例如,对于第二种情况,用户需要在附近的饭店列表中选出“麦当劳(珠江路5000号)”和“肯德基(长江路6000号)”,需要进行排列所有可能的发音序列。比如对于第一个麦当劳,就生成如下发音序列:“麦当劳”,“珠江路麦当劳”,“珠江路5000号麦当劳”,“珠江路5000号”和“珠江路”;对于第二个肯德基,就生成如下发音序列:“肯德基”,“长江路肯德基”,“长江路6000号肯德基”,“长江路6000号”和“长江路”。这种属性关联方法的缺陷为不灵活,程序必须列出所有序列;运算量大,随着列表属性增加,可能的发音序列变得很大。综合以上两种情况,现有技术没有解决好灵活性和复杂性的矛盾。
发明内容
本发明所要解决的技术问题在于,提供一种语音搜索列表的实现方法,可以降低计算复杂性,同时增加了灵活性。
为解决上述技术问题,本发明提供一种语音搜索列表的实现方法,包括如下步骤:
(1)列表预处理:
一个列表,提取每个列表项c的所有属性的关键字,切词且去除重复,得到词汇样本V(v1,v2,…vn),有n个独立的词;
(2)语音识别
将词汇样本V传送给语音识别器,并加载UNIGRAM语言模型,进行语音识别,得到N-BEST结果R,其中每个结果t为识别出的词,w为该词的权重;
(3)计算似然估计值
对每个列表项c,计算其归一化的似然估计值lik(c);
lik(c)=Πr∈Rf(c|r)
f(c|r)=Πt∈rg(t|c)
其中,a、b为预设的常数,c为一个列表项,r为一个语音识别结果,t为一个识别出的词,w为一个识别出的词t的权重;
(4)列表搜索;根据列表项的似然估计值重新排序,选出似然估计值最大的列表项。
优选的,步骤(1)中,词汇样本V必须去除重复词汇。
优选的,步骤(2)中,语音识别器装载词汇样本V和UNIGRAM语言模型,识别输入语音数据并输出N-BEST结果。
优选的,步骤(2)中,语音识别器加载的UNIGRAM语言模型是动态生成的,而UNIGRAM语法是固定的,不依赖于列表而变化,每种语言只需有一个UNIGRAM语法。
优选的,步骤(2)中,语音识别器为嵌入式语音识别器或任何支持N-BEST结果的语音识别器。
优选的,步骤(2)中,权重为概率或信任值。
优选的,步骤(2)中,词汇样本V中可以增加常用连接词和介词。
优选的,步骤(3)中,计算似然估计值基于朴素贝叶斯概率模型,并且使用了所有N-BEST结果。
优选的,步骤(3)中,a、b为预设的常数,根据试验数据来设置。
优选的,步骤(3)中,计算似然估计值方法与语音识别器无关。
本发明的有益效果为:很好的解决了语音搜索列表的灵活性和复杂性的矛盾,降低了计算复杂性,同时增加了灵活性。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的语音识别流程示意图。
图3是本发明的已获取N-BEST结果后的实现方法流程示意图。
具体实施方式
如图1和图2所示,一种语音搜索列表的实现方法,包括如下步骤:
(1)列表预处理:
一个列表,提取每个列表项c的所有属性的关键字,切词且去除重复,得到词汇样本V(v1,v2,…vn),有n个独立的词;
(2)语音识别
将词汇样本V传送给语音识别器,进行语音识别,得到N-BEST结果R,其中每个结果t为识别出的词,w为该词的权重;权重为概率或信任值等;N-BEST为一种搜索算法,结果为N个最优路径;
(3)计算似然估计值
对每个列表项c,计算其归一化的似然估计值lik(c);
lik(c)=Πr∈Rf(c|r)
f(c|r)=Πt∈rg(t|c)
其中,a、b为预设的常数,c为一个列表项,r为一个语音识别结果,t为一个识别出的词,w为一个识别出的词t的权重;
(4)列表搜索;根据列表项的似然估计值重新排序,选出似然估计值最大的列表项。
如图3所示,为已获取N-BEST结果后的实现方法流程示意图。依次取下一个列表项c,初始化似然估计值lik(c)=1,取下一个N-BEST结果r,取下一个词t;若r包含t,则lik(c)=lik(c)*wt*a;若r不包含t,则lik(c)=lik(c)*wt*b;获得似然估计值lik(c);若还有未取词,则继续取词重复上述步骤;若还有未取的N-BEST结果,则继续取下一个N-BEST结果,重复上述步骤。
以用户需要在列表中使用语音选择一个快餐店为例。用户需要在列表
[{“id”:0,“name”:”麦当劳”,“address”:”珠江路5000号”,“phone”:“555-12345678”},
{“id”:1,“name”:”肯德基”,“address”:”长江路6000号”,“phone”:“555-87654321”}]中使用语音选择一个快餐店,具体步骤如下:
(1)提取关键字,得到列表[“麦当劳”,“珠江路5000号”,“555-12345678”,“肯德基”,“长江路6000号”,“555-87654321”];
(2)切词,并且除去重复,得到词汇样本列表V=[“麦当劳”,“珠江路”,“5000号”,“555-12345678”,“12345678”“肯德基”,“长江路”,“6000号”,“555-87654321”,“87654321”];
(3)将此词汇样本V传给语音识别器,每个语音识别器都有特定的方法;
(4)语音识别,假设用户说“珠江路麦当劳”,得到N-BEST结果R=
{{“珠江路”:0.9,“麦当劳”:0.8},
{{“珠江路”:0.8,“麦当劳”:0.6,“6000号”:0.2},
{“珠江路”:0.7,“肯德基”:0.2,“6000号”:0.1}}
(5)计算似然估计值,假设(a=0.5,b=0.1)
麦当劳的似然估计值lik(0)=(0.5*0.9)*(0.5*0.8)*(0.5*0.8)*(0.5*0.6)*(0.1*0.2)*(0.5*0.7)*(0.1*.0.2)*(0.1*0.1)=3e-8
肯德基的似然估计值lik(1)=(0.1*0.9)*(0.1*0.8)*(0.1*0.8)*(0.1*0.6)*(0.5*0.2)*(0.1*0.7)*(0.5*0.2)*(0.5*0.1)=1e-9;
(6)重新排序,选出似然估计值最大的列表项“麦当劳”,因为麦当劳的似然估计值大于肯德基的似然估计值。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (10)

1.一种语音搜索列表的实现方法,其特征在于,包括如下步骤:
(1)列表预处理:
一个列表,提取每个列表项c的所有属性的关键字,切词且去除重复,得到词汇样本V(v1,v2,…vn),有n个独立的词;
(2)语音识别
将词汇样本V传送给语音识别器,并加载UNIGRAM语言模型,进行语音识别,得到N-BEST结果R,其中每个结果t为识别出的词,w为该词的权重;
(3)计算似然估计值
对每个列表项c,计算其归一化的似然估计值lik(c);
lik(c)=Πr∈Rf(c|r)
f(c|r)=Πt∈rg(t|c)
其中,a、b为预设的常数,c为一个列表项,r为一个语音识别结果,t为一个识别出的词,w为一个识别出的词t的权重;
(4)列表搜索;根据列表项的似然估计值重新排序,选出似然估计值最大的列表项。
2.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(1)中,词汇样本V必须去除重复词汇。
3.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,语音识别器装载词汇样本V和UNIGRAM语言模型,识别输入语音数据并输出N-BEST结果。
4.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,语音识别器加载的UNIGRAM语言模型是动态生成的,而UNIGRAM语法是固定的,不依赖于列表而变化,每种语言只需有一个UNIGRAM语法。
5.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,语音识别器为嵌入式语音识别器或任何支持N-BEST结果的语音识别器。
6.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,权重为概率或信任值。
7.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(2)中,词汇样本V中增加常用连接词和介词。
8.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(3)中,计算似然估计值基于朴素贝叶斯概率模型,并且使用了所有N-BEST结果。
9.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(3)中,a、b为预设的常数,根据试验数据来设置。
10.如权利要求1所述的语音搜索列表的实现方法,其特征在于,步骤(3)中,计算似然估计值方法与语音识别器无关。
CN201610971069.8A 2016-11-04 2016-11-04 一种语音搜索列表的实现方法 Active CN106409291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610971069.8A CN106409291B (zh) 2016-11-04 2016-11-04 一种语音搜索列表的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610971069.8A CN106409291B (zh) 2016-11-04 2016-11-04 一种语音搜索列表的实现方法

Publications (2)

Publication Number Publication Date
CN106409291A CN106409291A (zh) 2017-02-15
CN106409291B true CN106409291B (zh) 2019-12-17

Family

ID=58014824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610971069.8A Active CN106409291B (zh) 2016-11-04 2016-11-04 一种语音搜索列表的实现方法

Country Status (1)

Country Link
CN (1) CN106409291B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
EP0964389A2 (en) * 1998-06-12 1999-12-15 ATR Interpreting Telecommunications Research Laboratories Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
CN101777347A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 一种模型互补的汉语重音识别方法及系统
CN103559289A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词检索方法及系统
CN103594087A (zh) * 2013-11-08 2014-02-19 安徽科大讯飞信息科技股份有限公司 提高口语评测性能的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
EP0964389A2 (en) * 1998-06-12 1999-12-15 ATR Interpreting Telecommunications Research Laboratories Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
CN101777347A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 一种模型互补的汉语重音识别方法及系统
CN103559289A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词检索方法及系统
CN103594087A (zh) * 2013-11-08 2014-02-19 安徽科大讯飞信息科技股份有限公司 提高口语评测性能的方法及系统

Also Published As

Publication number Publication date
CN106409291A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
US11875789B2 (en) Language models using domain-specific model components
US9842592B2 (en) Language models using non-linguistic context
US10719507B2 (en) System and method for natural language processing
US6877001B2 (en) Method and system for retrieving documents with spoken queries
US7542966B2 (en) Method and system for retrieving documents with spoken queries
US20190370398A1 (en) Method and apparatus for searching historical data
CN106663424B (zh) 意图理解装置以及方法
US8145484B2 (en) Speech processing with predictive language modeling
US8762153B2 (en) System and method for improving name dialer performance
US20030204399A1 (en) Key word and key phrase based speech recognizer for information retrieval systems
US20070179784A1 (en) Dynamic match lattice spotting for indexing speech content
WO2016044321A1 (en) Integration of domain information into state transitions of a finite state transducer for natural language processing
US20080059172A1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
WO2010075015A2 (en) Assigning an indexing weight to a search term
WO2012004955A1 (ja) テキスト補正方法及び認識方法
JP5951105B2 (ja) 検索装置
JP5112978B2 (ja) 音声認識装置、音声認識システムおよびプログラム
CN106409291B (zh) 一种语音搜索列表的实现方法
CN111309926B (zh) 一种实体链接方法、装置及电子设备
CN104731918A (zh) 一种语音搜索方法及装置
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
CN110164445B (zh) 语音识别方法、装置、设备及计算机存储介质
CN111833867A (zh) 语音指令识别方法、装置、可读存储介质和电子设备
US7580942B2 (en) Indexing and ranking processes for directory assistance services
EP1895748B1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210625

Address after: 211100 3016-2, Kechuang building, No.7, Nanyou Road, Jiangning Development Zone, Nanjing City, Jiangsu Province

Patentee after: Nanjing sujifu Information Technology Co.,Ltd.

Address before: Room 1218, Cuiping science and Technology Innovation Park, No. 37, Jiangjun Avenue, Jiangning District, Nanjing City, Jiangsu Province, 211100

Patentee before: NANJING KANKAN INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right