CN101952883B - 计算机执行的通过基于语音的用户界面与用户交互的方法 - Google Patents
计算机执行的通过基于语音的用户界面与用户交互的方法 Download PDFInfo
- Publication number
- CN101952883B CN101952883B CN2009801062430A CN200980106243A CN101952883B CN 101952883 B CN101952883 B CN 101952883B CN 2009801062430 A CN2009801062430 A CN 2009801062430A CN 200980106243 A CN200980106243 A CN 200980106243A CN 101952883 B CN101952883 B CN 101952883B
- Authority
- CN
- China
- Prior art keywords
- phrase
- territory
- project
- user
- order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 239000003607 modifier Substances 0.000 claims description 5
- 239000002245 particle Substances 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000008676 import Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 244000290333 Vanilla fragrans Species 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种计算机执行的、便于通过基于语音的用户界面进行用户交互的方法。该方法获取来自用户的、一个或更多个字的短语形式的口述式输入。该方法还使用多个不同的域确定所述短语是查询还是命令。如果所述短语为查询,该方法则从多个数据库中检索并展示相关项目。如果所述短语是命令,则执行操作。
Description
技术领域
本发明总体上涉及自动语音识别系统,更具体地涉及针对该系统的用户交互界面。
背景技术
使用自动语音识别(ASR)的应用需要基于语音的用户界面来与用户进行交互。一般地讲,用户可以使用口述式用户输入执行两类任务。第一种任务类型与利用查询的信息检索(IR)有关。在这种任务中,用户希望从存储在数据库中的大的项目集合(如互联网的网页)中检索项目,如文件、图片、唱片等。另一任务类型是针对支持语音的命令与控制。此处,用户希望进行一些操作。这两种任务都涉及将可能是用户所说的话的范围变窄。
在IR的情况下,通常通过如图1所示的对话来完成,其中竖轴表示时间。在图1中,用户101的步骤显示在左侧,系统102的步骤显示在右侧。系统具有某种根状态R 120。用户101提供口述式输入110,例如用来检索项目。口述式输入110被解释为与状态集合X 124有关,而不是与另一些状态集合Y和Z 123有关。作为响应,系统进入下一状态X0125,并或许对用户进行提示。
用户提供另外的输入110。例如,在基于语音的目的地输入系统中,在被允许说出目的地街道名称之前,用户可能首先需要选择国家,然后在单独的步骤中选择城市。过程124反复地、继续地使系统改变(126)状态128-129,直至交互完成,并检索到了相关项目127。
通常,每个系统状态具有有限的状态专用语法、词汇和/或语言模型,仅通过涉及有限状态机(FSM:finite-state machine)中的两个或更多个应用状态的遍历的多个步骤处理就可以获得状态(如128-129)。
如图2所示,面向命令的方法通常涉及“载体”短语,其中命令字与特定的修饰词(modifier word)和/或变量存在于相同的短语130中。系统将给出的载体短语的含义解释(122)为短语130中的修饰语和变量,并进入状态集合X 124。如果载体短语与例如状态X1129有关,则系统可以立即进入该状态,或者在进入该状态之前请求来自用户的确认132。使用口头的或物理的交互形态139可以完成用户部分133的确认或取消137。可以同前面一样重复过程124。
其它的方法也是常见的。例如,可以在没有命令的情况下说出变量,或者,命令可以启动对话状态,在该状态下仅变量是可用的。利用诸如短语“发现艺术家Vanilla Ice”中的载体词(carrier word)也可以完成搜索任务。然而,在各情况下,各状态的词汇、短语语法和/或语言模式都是固定的。
通常,这两个不同的界面彼此不兼容。也就是,IR界面不能处理命令,控制界面不能处理查询。
发明内容
语音界面需要以一个多或更多个字的短语形式的口述式输入。确定该短语是查询还是命令。如果该短语是查询,则从数据库中搜索由该短语所指定的相关项目,如该短语是命令则执行操作。
附图说明
图1为用于信息检索的、现有技术的基于语音的界面的框图;
图2为用于命令和控制的、现有技术的基于语音的界面的框图;
图3为根据本发明实施方式的口述式用户界面的框图;
图4为根据本发明实施方式的域的示意图;
图5为构建图4的域的过程的示意图;以及
图6为根据本发明实施方式的域结构示例的示意图。
具体实施方式
本发明的实施方式提供了一种通过基于语音的界面与用户交互的方法。任意的口述式输入要么与信息检索有关,要么与命令和控制有关,后者可以包括从菜单或功能的分级体系中进行选择。
与具有有限的词汇和语法的传统的口述式用户界面相比,我们的界面具有本质上不受限的词汇和语法。这意味着可以以任何顺序说出任何字词。这大大增强了口述式界面的操作的灵活性和有效性。
界面结构和操作
图3示出了根据本发明的实施方式的基于语音的用户界面。竖轴表示时间。用户101的操作在左边示出,系统102的操作在右边示出。
用户通过以一个或更多个字的短语的形式提供非结构化的(unstructured)或半结构化(semi-structured)的口述式输入133。不同于传统的界面,该输入既可以是查询又可以是命令。
除了命令字词以外,在命令短语中还可以包括变量或修饰语。也就是,该界面允许用户说任何话。
不是象传统的界面中那样进入有限状态机(FSM),诸如在美国专利6877001中所描述的,本系统使用基于语音的IR系统对该口述式输入进行一系列的多域查找和相关分析135,在此以引用的方式将该专利的全部内容合并于此。
口述式输入和任意下层索引以及数据库都可以使用如在同时待审的和相关的美国专利申请SN.12/036,681中所描述和示出的粒子(particle)。查找和相关的评分可以在各域中出现,与传统的命令和控制界面中的一样,这些域中的一些属于命令,而这些域中的其它域属于可搜索内容(如文件或音乐集)或导航系统中的兴趣点(POI)。
可以将应用的不同功能性区域(如音频/视频和导航)内的状态分开进行索引,以形成一个或更多个相区分开的命令域。
命令域和查询域
在命令域的情况下,由IR引擎检索到的“项目”为指向给定的FSM状态的指针,这些项目可以包括有关于由该状态和由可从该项目的状态到达的其它状态所预期的任何输入的信息。如果所需的输入没有包括针对命令项目的IR索引中,则可以通过对照传统的有限状态语法(FSG,其包括变量和/或修饰语的占位符)重新识别语音输入,或者通过提示用户进行额外的阐明输入来提取出该输入。
在内容域的情况下,检索到的“项目”为指向可搜索内容(如艺术家、相册、或音乐收集中的歌曲、或附近餐馆POI)的单独节点的指针。
系统确定口述式输入是查询还是命令(136)。如果最匹配的域为内容域,则向用户展示结果列表137,用户选择激活哪个内容项目(140)。如果输入短语为命令,则可以向用户展示最匹配的一个或更多个命令以进行确认,或者如果存在明确的最匹配命令,则可以立即进行执行(138)。如果需要,可以输入额外的短语来改进或完善命令或查询。
结果提示
可以以多种不同的方式向用户提示相关命令或相关项目。可以按域分开来自不同域的相关匹配,域每次以相同的顺序或者按照与给定的查询的相关度的降序出现。另选地,可以将来自所有域的匹配混合成合并的结果列表。
相关域确定
某一语音输入短语可能在多个域中的各域中得到匹配。为了确定输入短语的最相关的域,我们确定这些匹配中的哪一个最没有可能通过随机选取而被得到。该可能性可以常规地被计算出来。
图4示出了所有域中的项目I的集合406。在该集合中项目I的数目为T。子集I1,I2等表示来自域1,2等的项目,并且T1,T2等表示这些子集中各子集中的项目数。子集可以相互交叉,见子集407-408。
用户输入短语U检索N个项目,其中N1个项目来自子集I1,N2个项目来自子集I2,等等。为了确定这些检索的相关度,我们确定出概率也就是,如果我们要从集合I中随机地选出N个项目,则N1个项目来自子集D1。
类似地,我们确定出概率也就是,如果我们要从集合I中随机地选出N个文件,则N2个属于子集I2。总的说,概率为从第i个域中得到的项目数也可以通过从集合I中随机选取N个文件来得到的概率。于是,针对输入短语U的域具有最小的概率即
上述方法确定了哪个域最不可能被随机得到,并且将相应的域选择为该输入短语的最相关的域。此外,可以将附加的关于概率的阈值一起用于完全地拒绝输入短语。
基于文件的域的构建
如在相关的美国专利申请中所表述的,可以通过对各项目进行索引来构建域中的项目。例如,项目为文本文件,诸如操作者手册510。该文件可以明确地或暗含地带有格式,并可以以可机读或可人读的形式而被提供。索引处理将文件分割为较小的段520,并识别可能由检索给定的段的用户所讲的词句(term)或短语。
有好几种使用文件结构(如章节标题和子章节)来识别这些词句的手段。可以针对整体和针对各章节,将对字词和短语的出现的统计进行汇编。可以按段对涉及文件整体的各个术语分配权重。这就使得能够识别出与IR的目的更相关的词句。
可以对非重要词句(如非常短或常用的字,如“该”)的手动或机器生成的“非用词表”进行合并。但是,如果非用词表上的术语被发现在某些段以很高的频率出现,而在其它段不这样,则将该术语从非用词表中移出并移到相关项目的列表。
可以在同义词词典中对出现在章节或子章节标题中的相关或有区别的术语进行查找,如果找到了,也将该同义词添加到针对给定的段的相关或有区别的项目列表中。
图6示出了用户输入133的分层形式的域的结构、一组搜索域610、一组命令域620和项目的各种子集,它们中的一些可以交叉。
尽管参照优选实施方式的示例描述了本发明,但应当理解,可以在本发明的精神和范围内作出的许多其它的适应和修改。因此,所附的权利要求的目的在于涵盖落入本发明的真正精神和范围内的所有这样的变型和修改。
Claims (7)
1.一种计算机执行的通过基于语音的用户界面与用户交互的方法,该方法包括如下步骤:
获取来自用户的一个或更多个字的短语形式的口述式输入;
使用多个不同的域确定所述短语是查询还是命令;
如果所述短语为查询,则从多个数据库中检索并展示相关项目;以及
如果所述短语是命令,则执行操作。
2.根据权利要求1所述的方法,其中如果所述短语是命令,则所述短语包括变量和修饰语。
3.根据权利要求1所述的方法,其中所述短语为粒子的形式,并且对所述项目的索引为粒子的形式。
4.根据权利要求1所述的方法,其中按域对所述相关项目进行分离。
5.根据权利要求1所述的方法,其中按照相关度的顺序来展示所述相关项目。
6.根据权利要求1所述的方法,其中将所述相关项目混合在合并的结果列表中。
7.根据权利要求1所述的方法,其中所有可能的项目形成项目集合,该方法还包括如下步骤:
将所述集合中的项目分组为项目子集,其中各项目子集形成所述多个域中的一个域;
响应于所述查询,从所述多个域中的一个或更多个域中检索所述项目;以及
如果检索到的项目最不可能通过从整个项目集合中进行随机选取而获得,则选择特定的域作为与所述查询最相关的域。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/036,713 | 2008-02-25 | ||
US12/036,713 US7917368B2 (en) | 2008-02-25 | 2008-02-25 | Method for interacting with users of speech recognition systems |
PCT/JP2009/053998 WO2009107848A1 (en) | 2008-02-25 | 2009-02-25 | Computer implemented method for interacting with user via speech-based user interface |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101952883A CN101952883A (zh) | 2011-01-19 |
CN101952883B true CN101952883B (zh) | 2012-03-21 |
Family
ID=40651523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801062430A Active CN101952883B (zh) | 2008-02-25 | 2009-02-25 | 计算机执行的通过基于语音的用户界面与用户交互的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7917368B2 (zh) |
EP (1) | EP2245617B1 (zh) |
JP (1) | JP5111607B2 (zh) |
CN (1) | CN101952883B (zh) |
WO (1) | WO2009107848A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
EP2522692B1 (en) | 2008-05-30 | 2014-06-18 | 3M Innovative Properties Company | Ligand monomers and copolymers made therewith |
WO2009146321A1 (en) | 2008-05-30 | 2009-12-03 | 3M Innovative Properties Company | Ligand functionalized substrates |
JP2010160316A (ja) * | 2009-01-08 | 2010-07-22 | Alpine Electronics Inc | 情報処理装置及びテキスト読み上げ方法 |
WO2010151447A1 (en) | 2009-06-23 | 2010-12-29 | 3M Innovative Properties Company | Functionalized nonwoven article |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8377672B2 (en) | 2010-02-18 | 2013-02-19 | 3M Innovative Properties Company | Ligand functionalized polymers |
WO2011109151A1 (en) | 2010-03-03 | 2011-09-09 | 3M Innovative Properties Company | Ligand guanidinyl functionalized polymers |
US8738377B2 (en) | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
CN103116649B (zh) * | 2013-02-28 | 2016-09-14 | 用友网络科技股份有限公司 | 数据分析系统和数据分析方法 |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US9740751B1 (en) | 2016-02-18 | 2017-08-22 | Google Inc. | Application keywords |
US9922648B2 (en) | 2016-03-01 | 2018-03-20 | Google Llc | Developer voice actions system |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
CN106653019B (zh) * | 2016-12-07 | 2019-11-15 | 华南理工大学 | 一种基于用户注册信息的人机对话控制方法及系统 |
WO2020171545A1 (en) * | 2019-02-19 | 2020-08-27 | Samsung Electronics Co., Ltd. | Electronic device and system for processing user input and method thereof |
CN111081225B (zh) * | 2019-12-31 | 2022-04-01 | 思必驰科技股份有限公司 | 技能语音唤醒方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0895396A2 (en) * | 1997-07-03 | 1999-02-03 | Texas Instruments Incorporated | Spoken dialogue system for information access |
CN1512402A (zh) * | 2002-12-31 | 2004-07-14 | 程松林 | 一种语音检索方法及采用该方法的音像信息检索系统 |
WO2005024781A1 (en) * | 2003-08-29 | 2005-03-17 | Johnson Controls Technology Company | System and method of operating a speech recognition system in a vehicle |
CN1629934A (zh) * | 2004-02-06 | 2005-06-22 | 刘新斌 | 一种用于交互控制的语音虚拟键盘的构建和使用方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US6877001B2 (en) | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
JP2006338508A (ja) * | 2005-06-03 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 関連コンテンツ探索装置及び方法 |
US8438024B2 (en) * | 2007-10-05 | 2013-05-07 | International Business Machines Corporation | Indexing method for quick search of voice recognition results |
-
2008
- 2008-02-25 US US12/036,713 patent/US7917368B2/en active Active
-
2009
- 2009-02-25 JP JP2010521152A patent/JP5111607B2/ja active Active
- 2009-02-25 EP EP09715785.3A patent/EP2245617B1/en active Active
- 2009-02-25 CN CN2009801062430A patent/CN101952883B/zh active Active
- 2009-02-25 WO PCT/JP2009/053998 patent/WO2009107848A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0895396A2 (en) * | 1997-07-03 | 1999-02-03 | Texas Instruments Incorporated | Spoken dialogue system for information access |
CN1512402A (zh) * | 2002-12-31 | 2004-07-14 | 程松林 | 一种语音检索方法及采用该方法的音像信息检索系统 |
WO2005024781A1 (en) * | 2003-08-29 | 2005-03-17 | Johnson Controls Technology Company | System and method of operating a speech recognition system in a vehicle |
CN1629934A (zh) * | 2004-02-06 | 2005-06-22 | 刘新斌 | 一种用于交互控制的语音虚拟键盘的构建和使用方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5111607B2 (ja) | 2013-01-09 |
EP2245617A1 (en) | 2010-11-03 |
WO2009107848A1 (en) | 2009-09-03 |
JP2011505026A (ja) | 2011-02-17 |
US7917368B2 (en) | 2011-03-29 |
US20090216538A1 (en) | 2009-08-27 |
EP2245617B1 (en) | 2013-12-18 |
CN101952883A (zh) | 2011-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101952883B (zh) | 计算机执行的通过基于语音的用户界面与用户交互的方法 | |
KR101970047B1 (ko) | 인공 지능을 기반으로 하는 검색 결과 플레이 방법과 장치 | |
KR101913191B1 (ko) | 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법 | |
US8321427B2 (en) | Method and apparatus for generation and augmentation of search terms from external and internal sources | |
KR102030078B1 (ko) | 대화형 상호작용 시스템에서 서치 입력에서의 사용자 의도를 추론하는 방법 및 이를 위한 시스템 | |
US10445359B2 (en) | Method and system for classifying media content | |
US8311828B2 (en) | Keyword spotting using a phoneme-sequence index | |
KR100816912B1 (ko) | 문서검색 시스템 및 그 방법 | |
EP2317507B1 (en) | Corpus compilation for language model generation | |
US20070106685A1 (en) | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same | |
US20060053101A1 (en) | More efficient search algorithm (MESA) using alpha omega search strategy | |
CN102750949B (zh) | 语音识别方法和装置 | |
CN108922633A (zh) | 一种疾病名称标准化规范方法及规范系统 | |
US20070225970A1 (en) | Multi-context voice recognition system for long item list searches | |
CN102549652A (zh) | 信息检索装置、信息检索方法及导航系统 | |
CN101952824A (zh) | 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统 | |
CN102968987A (zh) | 一种语音识别方法及系统 | |
CN106653006B (zh) | 基于语音交互的搜索方法和装置 | |
CN102289482A (zh) | 一种非结构化数据查询方法 | |
JP7098502B2 (ja) | 報告書作成装置、方法、およびプログラム | |
JP3893893B2 (ja) | ウエブページの音声検索方法、音声検索装置および音声検索プログラム | |
EP1876539A1 (en) | Method and system for classifying media content | |
CA2483805A1 (en) | System and methods for improving accuracy of speech recognition | |
US20210182338A1 (en) | Retrieval system and voice recognition method thereof | |
CN113094496B (zh) | 一种基于词条库的期刊热词排行榜设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |