CN104428766B - 语音识别装置 - Google Patents

语音识别装置 Download PDF

Info

Publication number
CN104428766B
CN104428766B CN201280074470.1A CN201280074470A CN104428766B CN 104428766 B CN104428766 B CN 104428766B CN 201280074470 A CN201280074470 A CN 201280074470A CN 104428766 B CN104428766 B CN 104428766B
Authority
CN
China
Prior art keywords
information
speech recognition
retrieval
display
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280074470.1A
Other languages
English (en)
Other versions
CN104428766A (zh
Inventor
丸田裕三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN104428766A publication Critical patent/CN104428766A/zh
Application granted granted Critical
Publication of CN104428766B publication Critical patent/CN104428766B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Remote Sensing (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

根据本发明的语音识别装置,对于由语音识别部从用户的语音内容中提取出的关键字,将根据用户的操作来进行显示的内容和次数作为历史信息进行存储,通过判定是否进行了规定次数以上的相同操作以及显示来设定检索等级,由此能够在下一次提取出相同的关键字时,立即提示出用户所要求的等级的信息,能够始终高效地提供用户所需的详细信息,从而提高了用户的便利性。

Description

语音识别装置
技术领域
本发明涉及对用户所说出的语音进行识别并检索信息的语音识别装置。
背景技术
在搭载于车载导航系统等的语音识别功能中,通常搭乘者(用户)会向系统明确表示(指示)发话的开始。为此,会在触摸面板上显示、或在方向盘上设置指示语音识别开始的按钮(以下记为“语音识别开始指示部”)。接着,在语音识别开始指示部被搭乘者(用户)按下之后,对所说出的语音进行识别。即,语音识别开始指示部输出语音识别开始信号,若语音识别部接受该信号,则在接受该信号之后从由语音获取部获取的音频数据中检测出与搭乘者(用户)所说的内容相应的音频区间,由此来进行语音识别处理。
然而,也存在即使没有来自搭乘者(用户)的语音识别开始指示,也始终对搭乘者(用户)所说的内容进行识别的语音识别装置。即,语音识别部即使没有接受语音识别开始信号,也反复进行以下处理,即:从语音获取部所获取的音频数据中检测出与搭乘者(用户)所说的内容相应的音频区间,提取出该音频区间的音频数据的特征量,并基于该特征量使用识别词典来进行识别处理,从而输出语音识别结果的字符串。或者,基于该字符串来检索数据库,并显示检索结果。
例如在专利文献1中,公开了下述语音识别装置,在该语音识别装置中,始终输入用户所说出的语音来进行语音识别,并显示该识别结果,然后用户利用操作按钮来进行确定操作,由此执行基于识别结果的处理。
现有技术文献
专利文献
专利文献1:
日本专利特开2008-14818号公报
发明内容
发明所要解决的技术问题
然而,在例如专利文献1这样的现有语音识别装置中,存在以下问题,即:在识别出相同语音的情况下,始终仅显示同一等级的检索结果。即存在下述问题:例如,当用户说出“加油站”时,始终仅显示附近的加油站的站名和位置,用户为了获知每个加油站的价格,每次都必须另外进行规定的操作。
本发明是为了解决上述问题而完成的,其目的在于提供一种语音识别装置,该语音识别装置能够立即示出用户所要求的等级的信息。
解决技术问题所采用的技术方案
为实现上述目的,本发明的语音识别装置的特征在于,包括:语音获取部,该语音获取部检测并获取用户所说出的语音;语音识别部,该语音识别部对由所述语音获取部获取到的音频数据进行识别,并提取出关键字;操作输入部,该操作输入部接受来自所述用户的操作输入;显示部,该显示部向所述用户提示信息;操作应答解析部,该操作应答解析部基于由所述操作输入部接受到的信息和所述显示部所显示的信息,确定所述用户的操作;操作显示历史存储部,该操作显示历史存储部对于由所述语音识别部提取出的每个关键字,将根据由所述操作应答解析部所确定的操作而显示在所述显示部的显示内容及其显示次数作为历史信息进行存储;检索等级设定部,该检索等级设定部根据所述操作显示历史存储部所存储的历史信息,设定由所述语音识别部提取出的关键字的检索等级;信息检索控制部,该信息检索控制部根据由所述检索等级设定部所设定的检索等级,将由所述语音识别部提取出的关键字作为检索关键词来检索信息,并获得检索结果;以及信息提示控制部,该信息提示控制部指示所述显示部显示由所述信息检索控制部所获取的检索结果,所述检索等级设定部对于由所述语音识别部提取出的关键字,当所述操作显示历史存储部所存储的历史信息中的显示次数为规定次数以上时,改变所述检索等级。
发明效果
根据本发明的语音识别装置,能够立即提示用户所要求的等级的信息,能够始终高效地提供用户所需的详细信息,从而提高了用户的便利性。
附图说明
图1是表示导航装置的显示画面例的图。
图2是表示实施方式1的语音识别装置的一个示例的框图。
图3是表示检索等级的定义例的图。
图4是表示信息检索控制部所设定的每个关键字的检索等级的示例的图。
图5是表示操作显示历史存储部所存储的每个关键字的用户操作历史和显示历史的图。
图6是表示实施方式1的语音识别装置的动作的流程图。
图7是表示关于操作显示历史存储部所存储的一个关键字(加油站)的操作历史和显示历史被更新的示例的图。
图8是表示检索结果的显示例的图。
图9是表示实施方式2的语音识别装置的一个示例的框图。
图10是表示实施方式2的语音识别装置的动作的流程图。
图11是表示实施方式3的语音识别装置的一个示例的框图。
图12是表示实施方式3的语音识别装置的动作的流程图。
图13是表示实施方式4的语音识别装置的一个示例的框图。
图14是表示实施方式4的语音识别装置的动作的流程图。
具体实施方式
下面,参照附图对本发明的实施方式进行详细说明。
首先,对作为本发明的前提的组装有语音识别装置的导航装置进行说明。图1是表示一般的导航装置的显示画面例的图。
例如,在搭载有该导航装置的车内,在导航装置的画面70中显示有用于通常的道路引导的地图和本车标记71的状态下,进行下述对话。
用户A:“汽油快用完啦”
用户B:“附近不知道有没有加油站啊”
于是,对应于该语音内容中所包含的种类名(本例中为“加油站”)的种类名图标72显示在导航装置的画面70中(图1(a))。若用户按下该图标72,则检索当前位置附近的加油站,并将加油站的例如名称和地址等作为检索结果以检索结果列表73的方式进行显示(图1(b))。
接着,若用户选择所显示的检索结果中的一个,则以设施标记74的方式显示所选择的加油站的位置信息,并且显示详情按钮75(例如“营业时间”按钮75a和“价格”按钮75b),从而显示该加油站的详细信息,例如营业时间、汽油价格等(图1(c))。此处,若用户按下“营业时间”的按钮75a,则显示该加油站的营业时间(图1(d))。
在以下的实施方式中,均以基于上述加油站这一种类的设施检索为例来进行说明,但本发明中进行检索的信息并不限于这种设施信息,也可以是交通信息、天气信息、地址信息、新闻、音乐信息、电影信息、节目信息等。
实施方式1.
图2是表示本发明的实施方式1的语音识别装置的一个示例的框图。该语音识别装置组装在搭载于车辆(移动体)的导航装置中进行使用,其包括:语音获取部1、语音识别部2、语音识别词典3、信息数据库4、信息检索控制部5、信息提示控制部6、显示部7、操作输入部8、操作应答解析部9、操作显示历史存储部10、以及检索等级设定部11。
语音获取部1获取由麦克风收集的用户语音即输入的音频,并利用PCM(PulseCode Modulation:脉冲编码调制)进行A/D(Analog/Digital:模拟/数字)转换。
语音识别部2从经过语音获取部1进行了数字化后的音频信号中检测出与用户所说的内容相应的音频区间,提取出该音频区间的音频数据的特征量,基于该特征量使用语音识别词典3进行识别处理,从而输出语音识别结果的字符串。另外,作为识别处理,使用例如HMM(Hidden Markov Model:隐式马尔克夫模型)法这样的一般方法来进行即可。
在搭载于车载导航系统等的语音识别功能中,通常搭乘者(用户)会向系统明确表示(指示)发话的开始。因此,会在触摸面板上显示、或在方向盘上设置指示语音识别开始的按钮(以下记为语音识别开始指示部)。于是,在语音识别开始指示部被用户按下之后,对所说出的语音进行识别。即,语音识别开始指示部输出语音识别开始信号,若语音识别部接受该信号,则在接受该信号之后从由语音获取部获取的音频数据中检测出与用户所说的内容相应的音频区间,由此来进行上述识别处理。
然而,本实施方式1的语音识别部2即使没有上述那样的由用户说出的语音识别开始指示,也始终对用户所说出的内容进行识别。即,语音识别部2即使没有接受到语音识别开始信号,在组装有该语音识别装置的导航装置启动的情况下,也始终反复地进行以下处理,即:从由语音获取部1所获取的音频数据中检测出与用户所说出的内容相应的音频区间,提取出该音频区间的音频数据的特征量,并基于该特征量使用语音识别词典3来进行识别处理,从而输出语音识别结果的字符串。在下述的实施方式中也一样。
信息数据库4存储有设施信息、地址信息、以及歌曲信息等中的至少一个以上。设施信息中例如包含有设施名称、设施所属的种类、位置数据、营业时间、有无停车场等,地址信息中例如包含有地址、位置数据等,歌曲信息中例如包含有专辑名、艺术家名、歌曲名、年代等信息。另外,此处,以信息数据库4中存储有设施信息的情况为例进行说明,但也可以存储交通信息、天气信息、地址信息、新闻、音乐信息、电影信息、节目信息等。信息数据库4例如可以存储于HDD、闪存,或者可以存储在网络上通过通信单元(未图示)来访问。
信息检索控制部5根据后述的检索等级设定部11所设定的检索等级,将语音识别部2输出的关键字作为检索关键词对信息数据库4进行检索,由此来获取信息。这里,检索等级是表示从信息数据库4获取到何种程度(哪一层级)的详细信息为止的指标,并对每个关键字进行定义。
图3表示检索等级的定义例。例如,在将关键字“加油站”作为检索关键词进行检索的情况下,若所设定的检索等级为“1”,则获取至设施名称和地址信息为止,若检索等级为“2”,则除了设施名称和地址信息之外,还获取营业时间和汽油价格中的至少一个以上的指定项目的信息。在没有设定检索等级的情况下,信息检索控制部5不进行检索处理。另外,也可以通过设定检索等级为“0”来作为没有设定检索等级的情况。
图4示出由后述的检索等级设定部11在信息检索控制部5中所设定的每个关键字的检索等级的示例。此处,在如图3的关键字“加油站”那样在相同的检索等级中存在多个项目的情况下,可以如图4(a)所示那样,设定一个项目来作为附加信息。在该情况下,除了设施名称和地址信息之外,还获取营业时间信息。此外,也可以如图4(b)所示那样设定多个项目来作为附加信息。并且,也可以在仅设定了检索等级的情况下,获取关于该等级的所有项目的信息。
信息提示控制部6指示后述的显示部7显示与检索等级相对应的图标、以及由信息检索控制部5所获取的检索结果的指示。具体而言,在没有设定检索等级的情况下,显示图1(a)所示的种类名图标72,在设定有检索等级的情况下,以图1(b)所示的检索结果列表73的方式显示由信息检索控制部5所获取的检索结果。
显示部7是一体显示型触摸面板,例如由LCD(Liquid Crystal Display:液晶显示器)和接触式传感器构成,根据来自信息提示控制部6的指示来显示检索结果。用户可通过直接触摸显示部(触摸面板)7来进行操作。
操作输入部8是接受来自用户的操作输入并将该指示输入到车载用导航装置的操作按键、操作按钮、触摸面板等。用户所作出的各种指示可以列举出对利用设置于车载用导航组合装置的硬件开关、显示器上所设定并显示的触摸开关、或者设置于方向盘等的遥控器或单独的遥控器作出的指示进行识别的识别装置等中所用到的指示。
操作应答解析部9基于操作输入部8所接受的信息和显示部7所显示的画面的信息等,来确定用户的操作。关于对用户操作的确定,并不是本发明的本质内容,使用公知的技术即可,因此省略说明。
操作显示历史存储部10示如下存储部:即,针对由语音识别部2提取出的每个关键字,将基于由操作应答解析部9所确定的用户的操作而显示在显示部7中的显示内容及其显示次数作为历史信息进行存储。图5示出了操作显示历史存储部10所存储的每个关键字的用户的历史信息。例如,如图5所示,针对每个关键字,将根据用户的操作所显示的内容以及显示该内容的次数成对地进行存储,若由操作应答解析部9确定了用户的操作,则增加针对该操作所显示的内容的次数并进行保存。
检索等级设定部11参照操作显示历史存储部10所存储的历史信息,根据该历史信息在信息检索控制部5中设定作为检索关键词的每个关键字的检索等级。此处,在信息检索控制部5中所设定的检索等级是与显示次数在规定的显示次数以上的显示内容(或者显示次数超过规定的显示次数的显示内容)相对应的等级。于是,对于由语音识别部2提取出的关键字,当操作显示历史存储部10中所存储的历史信息中的显示次数在规定次数以上时,改变检索等级,且每当显示次数达到规定次数以上时,提高检索等级。
例如,在将作为阈值的规定次数设为3次的情况下,在图5所示的关键字“加油站”中,层级1的名称、地址的显示次数为6次,层级2的营业时间的显示次数为2次,价格的显示次数为0次,因此,将检索显示次数符合规定次数即3次以上的名称、地址的检索等级设定为“1”(参照图3)。并且,若此时用户进行显示营业时间的操作,则营业时间的显示次数更新为3次,因此,在下一次提取出关键字“加油站”时,由于营业时间的显示次数达到规定次数即3次以上,因而将检索等级提高到“2”。
在显示次数超过规定次数的项目有多个的情况下,例如设定针对层级最深的显示内容的检索等级即可。例如,在作为阈值的规定次数同样设为3次的情况下,在图5所示的关键字“便利店”中,层级1的名称、地址的显示次数为5次,层级2的营业时间的显示次数和推荐商品的显示次数均为4次,因此符合规定次数即3次以上,且设定对层级最深的显示内容即营业时间和推荐商品进行检索的检索等级为“2”(参照图3)。
此处,关于作为阈值的规定次数,均以3次进行说明,但对于所有的关键字,可以使用相同的值,也可以对每个关键字使用不同的值。
另外,这里所示的检索等级的设定方法是一个示例,也可以设定为使用其他方法所决定的检索等级。
接着,利用图6所示的流程图,对实施方式1的语音识别装置的动作进行说明。
首先,语音获取部1获取由麦克风收集的用户语音即输入的音频,并利用PCM进行A/D转换(步骤ST01)。
接着,语音识别部2从经过语音获取部1进行了数字化后的音频信号中检测出与用户所说出的内容相应的音频区间,提取出该音频区间的音频数据的特征量,基于该特征量使用语音识别词典3来进行识别处理,提取作为关键字的字符串并进行输出(步骤ST02)。
接着,信息检索控制部5在由检索等级设定部11设定了检索等级的情况下(步骤ST03为是的情况下),根据该检索等级,将由语音识别部2输出的关键字作为检索关键词来对信息数据库4进行检索,从而获取信息(步骤ST04)。然后,信息提示控制部6指示显示部7显示由信息检索控制部5所获取的检索结果(步骤ST05)。
另一方面,在没有设定检索等级的情况下(步骤ST03为否的情况下),显示与该关键字相对应的图标(步骤ST06)。
接着,若用户通过操作输入部8操作显示画面,则操作应答解析部9对该操作进行解析,确定用户的操作(步骤ST07),对于该检索关键字,增加根据所确定的用户操作而显示的内容的次数,并更新操作显示历史存储部10中所保存的操作历史、显示历史(步骤ST08)。
检索等级设定部11对于步骤ST02中提取出的关键字,判定操作显示历史存储部10中所保存的显示内容的次数是否在预先设定的阈值即规定次数以上(步骤ST09)。若判定为不是规定次数以上的显示内容(步骤ST09为否的情况),则返回步骤ST01。另一方面,若判定为是规定次数以上的显示内容(步骤ST09为是的情况),则基于该内容来决定检索等级,并对信息检索控制部5设定检索等级(步骤ST10)。
下面,列举具体例来进行说明。另外,为了便于说明,将初始状态设为信息检索控制部5中未设定检索等级,各关键字的画面显示次数均为0。此外,将检索等级设定部11中进行判定时的阈值即“规定次数”设为2次。
例如,在搭载有导航装置的车内,在导航装置的画面70中显示有用于通常的道路引导的地图和本车标记71的状态下,进行下述对话:
用户A:“汽油快用完啦”
用户B:“附近不知道有没有加油站啊”
若进行了上述对话,则利用语音识别部2对经过语音获取部1进行了数字化后的音频信号进行识别,提取出关键字“加油站”并进行输出(步骤ST01、步骤ST02)。
此处,如上所述,在初始状态下,由于信息检索控制部5中未对关键字“加油站”设定检索等级,因此,不利用信息检索控制部5对信息数据库4进行检索(步骤ST03为否的情况)。于是,对应于检索等级未设定的显示,即“加油站”的种类名图标73以例如图1(a)所示那样的方式显示在显示部7的画面70上(步骤ST06)。
接着,若用户进行图1(a)、(b)、(c)所示的操作,从而显示图1(d)那样的画面,则操作应答解析部9根据这些图1(a)、(b)、(c)的操作,确定进行名称、地址的显示和营业时间的显示,并且,对于关键字“加油站”,增加名称、地址的显示次数和营业时间的显示次数,并更新操作显示历史存储部10的内容(步骤ST07、步骤ST08)。其结果是,在操作显示历史存储部10中,对于关键字“加油站”,保存有以下历史记录,即:名称、地址的显示次数为“1”、营业时间的显示次数为“1”、价格的显示次数为“0”。
接着,若在其他时间用户进行上述对话,并进行到名称、地址的显示为止,则操作显示历史存储部10所存储的信息如图7(a)所示,对于关键字“加油站”,其内容变为名称、地址的显示次数为“2”,营业时间的显示次数为“1”,价格的显示次数为“0”,由于名称、地址的显示次数在阈值即规定次数“2”以上,因此,对信息检索控制部5设定检索等级“1”(步骤ST09、步骤ST10)。
并且,若在其他时间用户进行上述对话,则对于关键字“加油站”,在信息检索控制部5中设定了检索等级“1”,因此,从信息数据库4获取名称、地址信息,并且作为检索结果,如图8(a)所示那样显示检索结果列表73(步骤ST03为是的情况,步骤ST04、步骤ST05)。此处,若用户选择检索结果中的一个,则显示图1(c)所示的画面。并且,操作显示历史存储部10中所存储的信息如图7(b)所示那样,其内容变为名称、地址的显示次数为“3”,营业时间的显示次数为“2”,价格的显示次数为“0”,由于营业时间的显示次数在阈值即规定次数“2”以上,因此对信息检索控制部5设定检索等级“2”,附加信息“营业时间”。
同样地,在操作显示历史存储部10中所存储的信息为图7(b)所示那样的情况下,当用户还在其他时间进行了上述对话,则对于关键字“加油站”,在信息检索控制部5中设定了检索等级“2”、以及附加信息“营业时间”,因此,从信息数据库4获取到营业时间为止的信息,并且作为检索结果,如图8(b)所示那样显示包含有营业时间的检索结果列表73。此处,若用户选择检索结果中的一个,则显示图1(d)所示的画面。
在操作显示历史存储部10中所存储的信息像如图7(c)所示那样,名称、地址的显示次数为“4”,营业时间的显示次数为“2”、价格的显示次数为“2”,在此情况下,由于所有的项目均在检索等级设定部11的判定中所使用的阈值即规定次数“2”以上,因此,对信息检索控制部5设定检索等级“2”、附加信息“营业时间”和“价格”(或者没有附加信息)。
在该状态下,若用户再次进行上述对话,则对于关键字“加油站”,由于信息检索控制部5中设定了检索等级“2”、附加信息“营业时间”和“价格”(或者没有附加信息),因此,从信息数据库4中获取到营业时间和价格为止的信息,并且作为检索结果,如图8(c)所示那样显示包含营业时间和价格在内的检索结果列表73。
如上所述,根据本实施方式1,对于由语音识别部从用户的语音内容中提取出的关键字,将根据用户的操作来进行显示的内容和次数作为历史信息进行存储,通过判定用户是否进行了规定次数以上的相同操作以及显示,例如用户在浏览“加油站”的信息时每次都要进行营业时间的确认等,来设定检索等级,由此能够在下一次提取出相同的关键字时,立即示出用户所要求的等级的信息,能够始终高效地提供用户所需的详细信息,因而提高了用户的便利性。
实施方式2.
图9是表示本发明的实施方式2的语音识别装置的一个示例的框图。另外,对于与实施方式1所说明的结构相同的结构标注相同的标号,并省略重复说明。以下所示的实施方式2中,与实施方式1相比,还具备鸣动设定部12,用于在用户对由语音识别部2所识别出的关键字的信息显示次数在规定次数以上(或超过规定次数)时,促使用户引起注意。
信息检索控制部5基于用户对由语音识别部2所识别出的关键字的信息显示次数,在由检索设定部11将检索等级设定为“1”以上时(或者设定了大于规定值的检索等级时),对鸣动设定部12进行输出的指示。
鸣动设定部12若接受到来自信息检索控制部5的指示,则改变导航装置的设定以进行规定的输出。此处,规定的输出是指例如座椅的振动、通知音的输出、内容为识别到该关键字的音频输出等通过预先设定的振动或音频来进行的鸣动输出。
接着,利用图10所示的流程图,对实施方式2的语音识别装置的动作进行说明。
关于步骤ST11~ST19的处理,由于与实施方式1中图6的流程图的步骤ST01~ST09相同,因此省略说明。
然后,对于由语音识别部2提取出的关键字,在判定为操作历史、显示历史是规定次数以上的显示内容的情况下(步骤ST19为是的情况),与实施方式1同样地设定检索等级(步骤ST20),然后鸣动设定部12改变鸣动设定从而进行规定的输出(步骤ST21)。
如上所述,根据本实施方式2,对于由语音识别部从用户的语音内容中提取出的关键字,若判定为过去用户进行了规定次数以上(或超过规定次数)的与该关键字相关的信息显示,则根据该关键字的检索等级,由鸣动设定部进行基于振动或音频的规定输出,由此来促使用户引起注意,因此,用户能够恰当地认识到处于可立即提示符合该检索等级的详细信息的状态。
实施方式3.
图11是表示本发明的实施方式3的语音识别装置的一个示例的框图。此外,对于与实施方式1、2所说明的结构相同的结构标注相同的标号,并省略重复说明。以下所示的实施方式3中,与实施方式2相比,还具备检索等级初始化部13,能够在用户想要初始化的情况下通过说话来对操作显示历史存储部10所存储的历史信息进行初始化。
语音识别词典3构成为还能够对“初始化”、“复位”等表示将操作显示历史存储部10中所存储的历史信息恢复至初始状态的命令的关键字进行识别,语音识别部2将该关键字作为识别结果进行输出。
检索等级初始化部13在利用语音识别部2提取出“初始化”、“复位”等表示恢复初始状态的命令的关键字时,对操作显示历史存储部10中所存储的历史信息进行初始化。
接着,利用图12所示的流程图,对实施方式3的语音识别装置的动作进行说明。
步骤ST31~32和步骤ST35~42与实施方式2中图10的流程图的步骤ST11~ST12及步骤ST13~20相同,因此省略说明。
接着,在步骤ST32中,当由语音识别部2提取出的关键字是“初始化”、“复位”等表示恢复初始状态的命令的关键字时(步骤ST33为是的情况下),对操作显示历史存储部10中所存储的信息进行初始化,即恢复初始状态(步骤ST34)。在提取出除此以外的关键字的情况下,进行步骤ST35之后的处理。
如上所述,根据本实施方式3,在利用语音识别部从用户的语音内容中提取出的关键字是“初始化”、“复位”等表示恢复初始状态的命令的关键字的情况下,对操作显示历史存储部中所存储的历史信息进行初始化,因此,在不希望显示与检索等级相应的详细信息的情况、用户改变了想法的情况等用户想要进行初始化的情况下,只要说出表示该命令的关键字,就能够将操作显示历史存储部的内容恢复至初始状态。
实施方式4.
图13是表示本发明的实施方式4的语音识别装置的一个示例的框图。此外,对于与实施方式1~3中所说明的结构相同的结构标注相同的标号,并省略重复说明。以下所示的实施方式4中,与实施方式1相比,还具备说话者识别部14,该说话者识别部14用于变更每个说话者(说话的用户)所参照的历史信息。
说话者识别部14对经过语音获取部1进行数字化后的音频信号进行解析,由此来识别说话者(说话的用户)。此处,关于说话者的识别方法,并不是本发明的本质内容,使用公知的技术即可,因此省略说明。
操作显示历史存储部10对于每一位用户保持图5所示的历史信息。于是,若说话者识别部14识别出说话者(说话的用户),则使与该识别出的用户相对应的历史信息变为有效。其他的处理与实施方式1相同,因此省略说明。设定为说话者识别部14所识别出的说话者是对操作输入部8进行操作的用户。
检索等级设定部11参照操作显示历史存储部10中所存储的历史信息中有效的历史信息,根据该历史信息在信息检索控制部5中设定作为检索关键词的每个关键字的检索等级。
接着,利用图14所示的流程图,对实施方式4的语音识别装置的动作进行说明。
首先,语音获取部1获取由麦克风收集的用户语音即输入的音频,并利用例如PCM进行A/D转换(步骤ST51)。
接着,说话者识别部14对由语音获取部1获取的音频信号进行解析,由此来识别说话者(步骤ST52)。
接着,操作应答解析部9将操作显示历史存储部10中与由说话者识别部14识别出的说话者相对应的历史信息设为有效(步骤ST53)。
关于之后的步骤ST54~ST62的处理,由于与实施方式1中图6的流程图的步骤ST02~ST10相同,因此省略说明。
如上所述,根据本实施方式4,根据用户的语音对说话者进行识别,通过参照对每个说话者存储的历史信息来设定检索等级,并显示与该检索等级相对应的详细信息,因此,即使使用组装有该语音识别装置的导航装置的用户发生变化,也能够立即提示出各用户所要求的等级的信息,能够始终高效地提供用户所需的详细信息,从而能够进一步提高用户的便利性。
另外,在上述实施方式中,设为始终对用户的语音内容进行识别,但也可以仅在规定的期间(例如,用户按下用于进行语音识别的按钮,在按住该按钮的期间,或者在按下该按钮后的规定时间内)进行语音识别。另外,也可以设为用户能够设定是始终进行识别还是仅在规定的期间内进行识别。
然而,如上述实施方式所示那样,通过在用户没有意识到的情况下,在组装有语音识别装置的导航装置启动时始终进行语音获取和语音识别,从而只要存在某些语音,就自动地进行语音获取和语音识别,并从语音识别结果中提取出关键字,设定检索等级,从而立即示出用户所要求的等级的信息,因此,无需用于获取语音或开始语音识别的用户手动操作或输入的意思等,能够始终高效地提供用户所需的详细信息。
在上述实施方式中,对将该语音识别装置组装入车载用导航装置的情况进行了说明,但可组装本发明的语音识别装置的装置并不限于车载用导航装置,只要是包含人、车辆、铁路、船舶或飞机等在内的移动体用的导航装置、便携式导航装置、便携式信息处理装置等能够通过用户与装置之间的对话来检索信息并进行显示的装置,则本发明可适用于任意的方式。
另外,本申请发明可以在其发明的范围内对各实施方式进行自由组合,或对各实施方式的任意构成要素进行变形、或省略各实施方式中的任意的构成要素。
工业上的实用性
可组装有本发明的语音识别装置的装置不限于车载用导航装置,只要是包含人、车辆、铁路、船舶或飞机等在内的移动体用的导航装置、便携式导航装置、便携式信息处理装置等能够通过用户与装置之间的对话来检索信息并进行显示的装置,则本发明可适用于任意的方式。
标号说明
1 语音获取部、2 语音识别部、3 语音识别词典、4 信息数据库、5 信息检索控制部、6 信息提示控制部、7 显示部、8 操作输入部、9 操作应答解析部、10操作显示历史存储部、11 检索等级设定部、12 鸣动设定部、13 检索等级初始化部、14 说话者识别部、70 导航装置的画面、71 本车标记、72 种类名图标、73 检索结果列表、74 设施标记、75 详情按钮。

Claims (6)

1.一种语音识别装置,其特征在于,包括:
语音获取部,该语音获取部检测并获取用户所说出的语音;
语音识别部,该语音识别部对由所述语音获取部获取到的音频数据进行识别,并提取出关键字;
操作输入部,该操作输入部接受来自所述用户的操作输入;
显示部,该显示部向所述用户提示信息;
操作应答解析部,该操作应答解析部基于由所述操作输入部接受到的信息和所述显示部所显示的信息,确定所述用户的操作;
操作显示历史存储部,该操作显示历史存储部对于由所述语音识别部提取出的每个关键字,将根据由所述操作应答解析部确定的操作而显示在所述显示部的显示内容及其显示次数作为历史信息进行存储;
检索等级设定部,该检索等级设定部根据所述操作显示历史存储部所存储的历史信息,设定由所述语音识别部提取出的关键字的检索等级;
信息检索控制部,该信息检索控制部根据由所述检索等级设定部所设定的检索等级,将由所述语音识别部提取出的关键字作为检索关键词来检索信息,从而获得检索结果;以及
信息提示控制部,该信息提示控制部指示所述显示部显示由所述信息检索控制部所获取的检索结果,
所述显示部根据来自所述信息提示控制部的指示来显示检索结果,
所述检索等级设定部对于由所述语音识别部提取出的关键字,在所述操作显示历史存储部所存储的历史信息中的显示次数为规定次数以上时,改变所述检索等级。
2.如权利要求1所述的语音识别装置,其特征在于,
所述检索等级设定部对于由所述语音识别部提取出的关键字,每当所述操作显示历史存储部所存储的历史信息中的显示次数在所述规定次数以上时,提高所述检索等级。
3.如权利要求1所述的语音识别装置,其特征在于,
所述信息检索控制部将由所述语音识别部提取出的关键字作为检索关键词来进行检索的信息是设施信息、交通信息、天气信息、地址信息、新闻、音乐信息、电影信息或节目信息中的任一个。
4.如权利要求1所述的语音识别装置,其特征在于,
还包括说话者识别部,该说话者识别部用于确定说出由所述语音获取部获取到的语音的用户,
所述操作显示历史存储部对于每一位用户存储历史信息,将由所述说话者识别部确定的用户的历史信息设为有效,
所述检索等级设定部参照所述操作显示历史存储部中设为有效的历史信息,来设定所述检索等级。
5.如权利要求1所述的语音识别装置,其特征在于,
还包括鸣动设定部,该鸣动设定部根据所述检索等级,通过振动或音频来促使所述用户引起注意。
6.如权利要求1所述的语音识别装置,其特征在于,
还包括检索等级初始化部,该检索等级初始化部在由所述语音识别部提取出的关键字是表示恢复初始状态的命令的关键字的情况下,将所述操作显示历史存储部中所存储的历史信息恢复至初始状态。
CN201280074470.1A 2012-07-03 2012-07-03 语音识别装置 Expired - Fee Related CN104428766B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/066974 WO2014006690A1 (ja) 2012-07-03 2012-07-03 音声認識装置

Publications (2)

Publication Number Publication Date
CN104428766A CN104428766A (zh) 2015-03-18
CN104428766B true CN104428766B (zh) 2017-07-11

Family

ID=49881481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280074470.1A Expired - Fee Related CN104428766B (zh) 2012-07-03 2012-07-03 语音识别装置

Country Status (5)

Country Link
US (1) US9269351B2 (zh)
JP (1) JP5925313B2 (zh)
CN (1) CN104428766B (zh)
DE (1) DE112012006652T5 (zh)
WO (1) WO2014006690A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US9761224B2 (en) * 2013-04-25 2017-09-12 Mitsubishi Electric Corporation Device and method that posts evaluation information about a facility at which a moving object has stopped off based on an uttered voice
EP3163457B1 (en) * 2014-06-30 2018-10-10 Clarion Co., Ltd. Information processing system, and vehicle-mounted device
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
CN104834691A (zh) * 2015-04-22 2015-08-12 中国建设银行股份有限公司 一种语音机器人
JP6641732B2 (ja) * 2015-06-09 2020-02-05 凸版印刷株式会社 情報処理装置、情報処理方法、及びプログラム
US10018977B2 (en) * 2015-10-05 2018-07-10 Savant Systems, Llc History-based key phrase suggestions for voice control of a home automation system
JP6625508B2 (ja) * 2016-10-24 2019-12-25 クラリオン株式会社 制御装置、制御システム
JP6920878B2 (ja) 2017-04-28 2021-08-18 フォルシアクラリオン・エレクトロニクス株式会社 情報提供装置、及び情報提供方法
KR102353486B1 (ko) * 2017-07-18 2022-01-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
JP6978174B2 (ja) * 2017-10-11 2021-12-08 アルパイン株式会社 評価情報生成システムおよび車載装置
JP6903380B2 (ja) * 2017-10-25 2021-07-14 アルパイン株式会社 情報提示装置、情報提示システム、端末装置
KR20200042127A (ko) * 2018-10-15 2020-04-23 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
CN113113029A (zh) * 2018-08-29 2021-07-13 胡开良 无人机声纹新闻追踪方法
US11094327B2 (en) * 2018-09-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Audible input transcription
JP7266432B2 (ja) * 2019-03-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN109996026B (zh) * 2019-04-23 2021-01-19 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN111696548A (zh) * 2020-05-13 2020-09-22 深圳追一科技有限公司 显示行车提示信息的方法、装置、电子设备以及存储介质
CN113470636B (zh) * 2020-07-09 2023-10-27 青岛海信电子产业控股股份有限公司 一种语音信息处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
CN101499277A (zh) * 2008-07-25 2009-08-05 中国科学院计算技术研究所 一种服务智能导航方法和系统
CN101558443A (zh) * 2006-12-15 2009-10-14 三菱电机株式会社 声音识别装置
CN101589428A (zh) * 2006-12-28 2009-11-25 三菱电机株式会社 车载用声音识别装置
CN102439661A (zh) * 2009-03-24 2012-05-02 Atx集团股份有限公司 用于车辆内自动交互的面向服务语音识别

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4137399B2 (ja) 2001-03-30 2008-08-20 アルパイン株式会社 音声検索装置
JP2004030400A (ja) * 2002-06-27 2004-01-29 Fujitsu Ten Ltd 検索システム
JP2004185240A (ja) * 2002-12-02 2004-07-02 Alpine Electronics Inc 操作履歴再現機能を有する電子機器および操作履歴の再現方法
CN101112078B (zh) * 2005-02-08 2012-04-18 日本电信电话株式会社 信息通信终端、信息通信系统、信息通信方法、信息通信程序及存储该程序的记录媒体
JP4603988B2 (ja) 2006-01-31 2010-12-22 キヤノン株式会社 情報処理装置および方法
JP4736982B2 (ja) 2006-07-06 2011-07-27 株式会社デンソー 作動制御装置、プログラム
WO2008136105A1 (ja) 2007-04-25 2008-11-13 Pioneer Corporation 表示装置、表示方法、表示プログラム、および記録媒体
JPWO2009147745A1 (ja) 2008-06-06 2011-10-20 三菱電機株式会社 検索装置
DE112009001779B4 (de) 2008-07-30 2019-08-08 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
JP2011075525A (ja) 2009-10-02 2011-04-14 Clarion Co Ltd ナビゲーション装置、および操作メニュー変更方法
US9305555B2 (en) * 2012-06-25 2016-04-05 Mitsubishi Electric Corporation Onboard information device
JP2014109889A (ja) * 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
CN101558443A (zh) * 2006-12-15 2009-10-14 三菱电机株式会社 声音识别装置
CN101589428A (zh) * 2006-12-28 2009-11-25 三菱电机株式会社 车载用声音识别装置
CN101499277A (zh) * 2008-07-25 2009-08-05 中国科学院计算技术研究所 一种服务智能导航方法和系统
CN102439661A (zh) * 2009-03-24 2012-05-02 Atx集团股份有限公司 用于车辆内自动交互的面向服务语音识别

Also Published As

Publication number Publication date
US20150120300A1 (en) 2015-04-30
JPWO2014006690A1 (ja) 2016-06-02
CN104428766A (zh) 2015-03-18
US9269351B2 (en) 2016-02-23
WO2014006690A1 (ja) 2014-01-09
JP5925313B2 (ja) 2016-05-25
DE112012006652T5 (de) 2015-03-26

Similar Documents

Publication Publication Date Title
CN104428766B (zh) 语音识别装置
JP5158174B2 (ja) 音声認識装置
CN102549652B (zh) 信息检索装置
CN101162153A (zh) 一种语音控制的车载gps导航系统及其实现方法
WO2016002406A1 (ja) 車載対話型システム、及び車載情報機器
CN106663424A (zh) 意图理解装置以及方法
CN105637323B (zh) 导航用服务器、导航系统以及导航方法
CN106601259A (zh) 一种基于声纹搜索的信息推荐方法及装置
JP2006195637A (ja) 車両用音声対話システム
JP6978174B2 (ja) 評価情報生成システムおよび車載装置
CN103204100B (zh) 一种出租车顶灯语音控制系统
CN101286317B (zh) 语音识别装置、模型训练方法、及交通信息服务平台
CN105355202A (zh) 语音识别装置、具有语音识别装置的车辆及其控制方法
KR20170035905A (ko) 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식
JP2009217585A (ja) 情報検索装置、情報検索システム及び情報検索方法
CN104603871B (zh) 用于运行车辆用的语音控制的信息系统的方法和设备
CN110972112B (zh) 地铁运行方向的确定方法、装置、终端及存储介质
JP2006317722A (ja) 音声処理装置
CN104756185A (zh) 语音识别装置
CN102867005A (zh) 检索装置、检索方法以及车载导航装置
JP2010139826A (ja) 音声認識システム
JP2003330485A (ja) 音声認識装置、音声認識システム及び音声認識方法
CN102571882A (zh) 基于网络的语音提醒的方法和系统
CN203419063U (zh) 一种出租车顶灯语音控制系统
CN107110660A (zh) 语音识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170711