CN107170447B - 声音处理系统以及声音处理方法 - Google Patents

声音处理系统以及声音处理方法 Download PDF

Info

Publication number
CN107170447B
CN107170447B CN201710121977.2A CN201710121977A CN107170447B CN 107170447 B CN107170447 B CN 107170447B CN 201710121977 A CN201710121977 A CN 201710121977A CN 107170447 B CN107170447 B CN 107170447B
Authority
CN
China
Prior art keywords
word
user
unit
candidate
request including
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710121977.2A
Other languages
English (en)
Other versions
CN107170447A (zh
Inventor
加藤整
伊藤纯一
峰村拓磨
增井惇也
难波利行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN107170447A publication Critical patent/CN107170447A/zh
Application granted granted Critical
Publication of CN107170447B publication Critical patent/CN107170447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开一种声音处理系统以及声音处理方法。声音处理系统具备:声音取得单元,取得用户的发声;声音识别单元,识别声音取得单元取得的发声的内容;执行单元,根据所述声音识别单元的结果执行处理;以及决定单元,决定代替某个词的词的候补,在由所述声音识别单元识别出包括第1词的要求的情况下,通过所述执行单元执行包括所述第1词的要求并将处理结果提供给所述用户,并且通过所述决定单元决定作为所述第1词的代替候补的第2词,通过所述执行单元还执行代替所述第1词而包括所述第2词的要求并将处理结果存储到存储单元。

Description

声音处理系统以及声音处理方法
本申请要求2016年3月8日申请、申请号为2016-044653的日本专利申请的优先权,其全部内容通过引用并入本文。
技术领域
本发明涉及声音处理系统,特别涉及能够针对来自用户的反问快速地应答的声音处理系统。
背景技术
伴随声音识别技术的发展,车内空间内的声音用户接口的利用正在增加。另一方面,车内空间是噪音多的环境,需要强劲地识别噪音。另外,要求构筑以有多次反问为前提的系统。
在此,“反问”是指,关于A要求之后的“不是A,而是B的情况?”这样的发声。例如,“检索涩谷附近的意大利餐厅”这样的要求之后的、“不是涩谷而是横浜的话是怎么样?”、“代替意大利餐厅而检索法国餐厅”这样的发声相当于“反问”。
在美国专利号No.7353176、美国专利号No.8036877、美国专利号No.8515752中公开了考虑上下文来掌握反问的内容并准确地处理的内容。
然而,美国专利号No.7353176、美国专利号No.8036877、美国专利号No.8515752是以能够应对反问为主要目标的发明,并未公开使反问处理快速化。
发明内容
本发明的目的在于在声音处理系统中,能够针对反问的要求快速地应答。
本发明的声音处理系统具备:声音取得单元,取得用户的发声;声音识别单元,识别声音取得单元取得的发声的内容;执行单元,根据所述声音识别单元的结果执行处理;以及决定单元,决定代替某个词的词的候补。而且,在由所述声音识别单元识别出包括第1词的要求的情况下,通过所述执行单元执行包括所述第1词的要求并将处理结果提供给所述用户,并且通过所述决定单元决定作为所述第1词的代替候补的第2词,通过所述执行单元还执行代替所述第1词而包括所述第2词的要求并将处理结果存储到存储单元。
在本发明中,优选为在由所述声音识别单元识别出包括所述第1词的要求之后识别出代替所述第1词而包括所述第2词的要求的情况下,所述执行单元取得所述存储单元中存储的处理结果并提供给所述用户。
这样,利用决定单元决定成为反问的候补的词的对,预先执行与反问的候补有关的处理并存储结果,从而能够缩短实际发生了将第1词置换为第2词的反问时的处理时间。
在本发明中,所述决定单元能够将在从所述用户取得了包括某个词的要求之后从所述用户取得了代替所述某个词而包括其它词的要求的次数,按照所述某个词和所述其它词的对存储,将与输入的词成对的词中的所述次数是阈值以上的词决定为所述输入的词的代替候补。在此,“从所述用户取得了代替所述某个词而包括其它词的要求的次数”可以是取得了指示为进行代替所述某个词而包括其它词的要求的发声的次数。即,决定单元优选为将关于A的要求之后的、“代替A而B的情况?”那样的反问的次数针对用语A和B的对进行存储。此外,决定单元存储的上述次数未必仅根据实际用户的发声内容来决定,关于设想为反问的频度高的用语对,也可以将上述次数预先设定得较大。
另外,在本发明中,决定单元还能够将某个词和该词的代替候补关联起来存储,将与输入的词关联起来存储的词决定为该输入的词的代替候补。另外,决定单元也可以根据词汇辞典判断用语的类似性,将与输入的词类似的词决定为代替候补。不论在哪一个情况下,都优选为还考虑发声中的上下文来决定代替候补。
另外,在本发明中,还优选为在所述用户在包括所述第1词的要求之后代替包括所述第1词的要求而发声了包括所述第2词的要求的情况下,所述声音识别单元根据包括所述第1词的要求的上下文信息决定所述第2词的属性,进行所述第2词的识别。
虽然有同一词根据上下文不同而具有不同的含意的情况,但在代替包括第1词的要求而发声了包括第2词的要求的情况下,设想第1词和第2词具有相同的属性。因此,通过考虑包括第1词的要求的上下文信息,能够精度良好地求出第2词的属性,能够精度良好地识别第2词。
根据本发明,在声音处理系统中,能够针对反问的要求快速地应答。
参照附图,本发明的进一步特征将从以下具体实施例的描述中变得清晰。
附图说明
图1是示出实施方式的声音处理系统的结构例的图。
图2是示出实施方式的词对存储部的例子的图。
图3是示出实施方式的声音处理方法的流程的流程图。
图4是示出实施方式的声音处理方法的流程的流程图。
具体实施方式
以下,参照附图,说明本发明的示例性的实施方式。此外,以下的说明示例地说明了本发明,本发明不限于以下的实施方式。
<反问>
在说明本实施方式的声音处理系统之前,说明“反问”。设想用户的发声内容是针对声音处理系统要求某种处理的状况。例如,考虑进行“检索涩谷附近处的意大利餐厅”这样的要求的状况。在之后用户进行“检索横浜附近处的意大利餐厅”这样的要求的情况下,考虑为“不是涩谷而是横浜的话是怎么样?”这样发声。在本说明书中,这样将包括某个词A的要求/指示之后的“不是A而是B的情况?”那样的发声称为“反问”。在上述例子中,除了变更“涩谷”这样的词的反问以外,还设想将“意大利”变更为“法国”的反问。即,反问的模式设想与某个要求中包含的词的数量相当的量。
<系统结构>
图1是示出本实施方式的声音处理系统的系统结构的图。本实施方式的声音处理系统是通过声音处理服务器200识别车辆100内的用户的发声,并执行与发声内容对应的处理来对车辆100内的用户提供处理结果的系统。
车辆100具备包括声音取得部110和信息提供部120的信息处理装置(计算机)。信息处理装置包括运算装置、存储装置、输入输出装置等,通过由运算装置执行存储装置中保存的程序来提供下述的功能。
声音取得部110由一个或者多个麦克风或者麦克风阵列构成,取得用户发出的声音。声音取得部110取得的声音通过无线通信被发送到声音处理服务器200。此外,声音取得部110不需要将所取得的声音原样地发送到声音处理服务器200,而可以取得声音的特征量并仅发送特征量。信息提供部120是用于将车辆100从声音处理服务器200取得的信息提供给用户的装置,包括图像显示装置、声音输出装置等。
声音处理服务器200具备包括声音识别部210、执行部220、词对存储部230、决定部240的信息处理装置(计算机)。信息处理装置包括运算装置、存储装置、输入输出装置等,通过由运算装置执行存储装置中保存的程序来提供下述的功能。
声音识别部210是用于识别从车辆100的声音取得部110发送的声音,并掌握其内容(文本)以及含意的功能部。声音识别部210根据词汇辞典、语言模型,进行声音识别。作为具体的声音识别手法,能够利用现有的任意的手法。在图中记载为声音识别部210仅从1台车辆100取得声音,但还能够从许多车辆100取得声音并识别。
此外,声音识别部210在识别反问的发声时,优选为根据反问之前的发声内容的上下文来决定并识别反问中包含的词的属性等。在反问中被置换的词是在同一上下文中使用的词,所以能够通过使用上下文信息来更高精度地识别反问中包含的词。
执行部220是执行与利用声音识别部210进行声音识别的结果对应的处理的功能部。例如,如果用户的发声是要求取得满足预定的条件的信息的发声,则执行部220从检索服务器300取得满足该条件的信息,并发送给车辆100。
执行部220在从用户受理了要求的情况下,推测所设想的反问,并执行与推测出的反问的要求对应的处理,将处理结果存储到存储部(未图示)。即,执行部220预取(先取)所推测的反问的要求的结果。然后,在实际从用户接受到反问的情况下,如果已预取到结果,则将其结果发送到车辆100。另外,执行部220在发生了反问的情况下,将哪个词被哪个词置换的情况记录到词对存储部230。关于这些处理的详细内容后述。
词对存储部230存储反问中的置换前的词和置换后的词的对的出现次数。图2是示出词对存储部230的表格结构的图。词对存储部230保存置换前的词231、置换后的词232、上下文信息233、出现次数234。置换前的词231是通过反问置换前的词,置换后的词232是通过反问置换后的词。上下文信息233是确定发声中的上下文的信息。出现次数234是通过利用上下文信息233确定的上下文而置换前的词231被置换后的词232置换的反问出现的次数。
此外,不需要仅根据实际发生的反问来决定词对存储部230中的出现次数。例如,在要求“检索A”之后发生了“不是A而是B的情况?”这样的反问的情况下,增加将词A置换为词B的反问的出现次数。此时,也可以增加将词B置换为词A的反问的出现次数。另外,在进而接下来继续了“C的情况?”这样的反问的情况下,增加将词A置换为词C的反问的出现次数。此时,除了增加将词A置换为词C的反问的出现次数以外,还可以增加将词B置换为词C的反问、将词C置换为词A的反问、将词C置换为词B的反问的出现次数。这是因为考虑在发生反问的情况下成为反问的对象的词是可相互置换的缘故。
决定部240是在取得了来自用户的发声时,推测用户的发声的反问的功能部。决定部240参照词对存储部230,推测在反问中哪个词被置换为哪个词。具体而言,决定部240参照词对存储部230,将用户的发声中包含的词以及该发声的上下文中出现次数是阈值以上的词对推测为在反问中被置换的词对。在有多个阈值以上的词对的情况下,词候补决定部240选择所有词对即可。但是,也可以仅选择居上位的预定数个的词对。
<处理内容>
首先,参照图3、图4说明本实施方式的声音处理系统中的处理。最初,在步骤S102中,声音取得部110取得用户的发声并发送给声音识别部210,声音识别部210识别发声的内容。在此,假设从用户接受到“检索从A到C的路径”这样的发声。实际上,A、C是具体的地名、店铺名等。另外,以下将该发声表示为{A、C}。
在步骤S104中,声音识别部210临时地存储当识别出发声{A、C}时得到的上下文信息、各词的领域。
在步骤S106中,执行部220执行与发声{A、C}对应的处理,将其结果发送到车辆100。具体而言,执行部220对检索服务器300发出求从A到C的路径的要求,取得其结果。然后,执行部220将从检索服务器300得到的处理结果发送到车辆100。在车辆100中,信息提供部120对用户提供处理结果。
在步骤S108中,决定部240决定针对发声{A、C}设想的反问中的候补词。例如,决定对发声{A、C}内的词A进行置换的词的候补集合{Bi}。具体而言,决定部240参照词对存储部230,将置换前的词是词A且上下文信息与发声{A、C}的上下文信息(已在S104中存储)一致的记录项中所包含的置换后的词,决定为候补词。在该说明中,仅说明置换词A的候补词,但同样地决定置换词C的候补词也是优选的。
在步骤S110中,执行部220关于置换词A的词的候补集合{Bi}的各个,进行与发声内容{Bi、C}对应的处理,即“检索从Bi到C的路径”这样的处理,并存储到存储装置中。与步骤S102同样地,通过对检索服务器300发出要求来进行路径的检索即可。
在步骤S112中,取得来自用户的反问的发声,并识别其内容。在此,设想用户反问“不是从A而是从B1的话是怎么样?”的情况。以下,将这样的反问表示为(A、B1)。声音识别部210在识别词B1时,考虑在步骤S104中存储的发声{A、C}的上下文信息、领域,来决定词B1的属性信息。例如,词B1有具有地名和店铺名等多个含意的情况,但声音识别部210考虑发声{A、C}的上下文信息等来能够判断为反问(A、B1)中的词B1表示地名。
在步骤S114中,声音处理服务器200更新词对存储部230。具体而言,将与置换前的词是“A”、置换后的词是“B1”、上下文信息是发声{A、C}的上下文信息相应的记录项的出现次数增加1。在不存在这样的记录项的情况下,新制作该记录项而将其出现次数设为1即可。此时,也可以将置换前的词是“B1”且置换后的词是“A”的记录项的出现次数增加1。这是因为考虑反问的词的对是可双向地交换的。
在步骤S116中,执行部220判断是否已存储(已预取){B1、C}即“从B1向C的路径的检索”的处理结果。如果已存储,则执行部220从存储部取得其结果,发送到车辆100。如果未已存储,则执行{B1、C}的处理,并将其处理结果发送到车辆100。在车辆100中,信息提供部120对用户提供该处理结果。
<本发明的有利的效果>
根据本发明,在受理了基于来自用户的声音的要求时,预想发生反问,预先执行与预想的反问对应的处理来预取结果。因此,在实际发生了反问时,无需进行处理就能够立即返回结果。如本实施方式那样,在针对外部服务器发出要求来进行处理的情况下花费几秒程度的时间,但通过预取来能够将该时间缩短为小于1秒。即,能够使反问时的应答快速化。
另外,根据实际发生的反问次数来决定成为反问的对象的词,所以能够提高推测精度。如本实施方式那样,在声音处理服务器200一并处理来自多个车辆100的声音的情况下,能够存储更多的反问的历史,所以能够进行精度更良好的推测。
另外,在发生了反问的情况下,利用反问之前的发声的上下文信息、领域来识别反问中包含的词的属性信息,所以能够进行精度良好的声音识别。在车辆内由于道路噪声等的影响而取得的声音有时变得不清楚,但通过这样利用上下文信息,在车辆内也能够进行精度良好的声音识别。
<变形例>
在上述实施方式中,根据实际产生的反问的次数推测成为反问的对象的词,但成为反问的对象的词的推测方法不限于上述方法。例如,决定部240也可以构成为具有词汇辞典,在反问之前的发声的上下文中,将与该发声中包含的词的类似度是阈值以上的词推测为反问对象的词。这样,也能够得到与上述同样的效果。
另外,在反问对象的词的推测中,重视进行该发声的用户的历史也是优选的。在上述说明中,声音处理服务器200将从各种车辆(用户)得到的反问的发生次数存储于词对存储部230中,但对每个用户的反问次数进行计数,并根据用户的反问次数推测反问也是优选的。由此,能够进行反映了每个用户的特征的推测。
在上述实施方式中,设想了车辆内的利用,但本发明的声音处理系统的利用场景不限于车辆内,而能够在任意的环境中利用。另外,以声音取得部(麦克风)设置于车辆且声音识别部和执行部设置于服务器的、所谓中心型的声音处理系统为例子进行了说明,但既可以将这些所有功能包含于1个装置来实施本发明,也可以通过以与上述不同的方式分担了功能的结构来实施本发明。

Claims (12)

1.一种声音处理系统,其中,具备:
声音取得单元,取得用户的发声;
声音识别单元,识别声音取得单元取得的发声的内容;
执行单元,根据所述声音识别单元的结果执行处理;以及
决定单元,决定代替某个词的词的候补,
在由所述声音识别单元识别出包括第1词的要求的情况下,
通过所述执行单元执行包括所述第1词的要求并将处理结果提供给所述用户,并且
通过所述决定单元决定作为所述第1词的代替候补的、与所述第1词具有相同属性的第2词,通过所述执行单元还执行代替所述第1词而包括所述第2词的要求并将处理结果存储到存储单元。
2.根据权利要求1所述的声音处理系统,其特征在于,
在由所述声音识别单元识别出包括所述第1词的要求之后,识别出代替所述第1词而包括所述第2词的要求的情况下,所述执行单元取得所述存储单元中存储的处理结果并提供给所述用户。
3.根据权利要求1或者2所述的声音处理系统,其特征在于,
在从所述用户取得包括某个词的要求之后,所述决定单元将从所述用户取得代替所述某个词而包括其它词的要求的次数按照所述某个词和所述其它词的对进行存储,将与输入的词成对的词中的所述次数是阈值以上的词决定为所述输入的词的代替候补。
4.根据权利要求3所述的声音处理系统,其特征在于,
从所述用户取得代替所述某个词而包括其它词的要求的次数包括取得指示为进行代替所述某个词而包括其它词的要求的发声的次数。
5.根据权利要求1或者2所述的声音处理系统,其特征在于,
所述决定单元将某个词和该词的代替候补关联起来存储,将与输入的词关联起来存储的词决定为该输入的词的代替候补。
6.根据权利要求1所述的声音处理系统,其特征在于,
在所述用户在包括所述第1词的要求之后代替包括所述第1词的要求而发声了包括所述第2词的要求的情况下,所述声音识别单元根据包括所述第1词的要求的上下文信息决定所述第2词的属性,进行所述第2词的识别。
7.一种声音处理方法,其中,包括:
声音取得步骤,取得用户的发声;
声音识别步骤,识别在声音取得步骤中取得的发声的内容;
处理执行步骤,根据所述声音识别步骤的结果,执行处理;以及
代替候补词决定步骤,决定代替某个词的词的候补,
在识别出包括第1词的要求的情况下,
执行包括所述第1词的要求并将处理结果提供给所述用户,并且
决定作为所述第1词的代替候补的、与所述第1词具有相同属性的第2词,还执行代替所述第1词而包括所述第2词的要求并存储处理结果。
8.根据权利要求7所述的声音处理方法,其特征在于,
在识别出包括所述第1词的要求之后识别出代替所述第1词而包括所述第2词的要求的情况下,在所述处理执行步骤中,取得所存储的所述处理结果并提供给所述用户。
9.根据权利要求7或者8所述的声音处理方法,其特征在于,
还包括如下步骤:在从所述用户取得包括某个词的要求之后,将从所述用户取得代替所述某个词而包括其它词的要求的次数按照所述某个词和所述其它词的对存储到表格,
在所述代替候补词决定步骤中,参照所述表格,将与输入的词成对的词中的所述次数是阈值以上的词决定为所述输入的词的代替候补。
10.根据权利要求9所述的声音处理方法,其特征在于,
从所述用户取得代替所述某个词而包括其它词的要求的次数包括取得指示为进行代替所述某个词而包括其它词的要求的发声的次数。
11.根据权利要求7或者8所述的声音处理方法,其特征在于,
还包括将某个词和该词的代替候补预先关联起来存储的步骤,
在所述代替候补词决定步骤中,将与输入的词关联起来存储的词决定为该输入的词的代替候补。
12.根据权利要求7所述的声音处理方法,其特征在于,
在所述用户在包括所述第1词的要求之后代替包括所述第1词的要求而发声了包括所述第2词的要求的情况下,在所述声音识别步骤中,根据包括所述第1词的要求的上下文信息决定所述第2词的属性,进行所述第2词的识别。
CN201710121977.2A 2016-03-08 2017-03-03 声音处理系统以及声音处理方法 Active CN107170447B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016044653A JP6481643B2 (ja) 2016-03-08 2016-03-08 音声処理システムおよび音声処理方法
JP2016-044653 2016-03-08

Publications (2)

Publication Number Publication Date
CN107170447A CN107170447A (zh) 2017-09-15
CN107170447B true CN107170447B (zh) 2021-01-05

Family

ID=59700728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710121977.2A Active CN107170447B (zh) 2016-03-08 2017-03-03 声音处理系统以及声音处理方法

Country Status (4)

Country Link
US (1) US10629197B2 (zh)
JP (1) JP6481643B2 (zh)
CN (1) CN107170447B (zh)
DE (1) DE102017104094B4 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018110610A1 (ja) 2016-12-14 2018-06-21 旭硝子株式会社 電荷輸送層、および有機光電子素子
JP7059813B2 (ja) * 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7192561B2 (ja) 2019-02-20 2022-12-20 トヨタ自動車株式会社 音声出力装置および音声出力方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1394331A (zh) * 2000-09-08 2003-01-29 皇家菲利浦电子有限公司 具有替换命令的语音识别方法
US20070233663A1 (en) * 2006-03-30 2007-10-04 Kabushiki Kaisha Toshiba Method, apparatus, and computer program product for searching information
US20080046230A1 (en) * 2006-07-14 2008-02-21 Fujitsu Limited Reception support system and program therefor
US7353176B1 (en) * 2001-12-20 2008-04-01 Ianywhere Solutions, Inc. Actuation system for an agent oriented architecture
CN101295293A (zh) * 2007-04-29 2008-10-29 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法
US20090144248A1 (en) * 2001-12-20 2009-06-04 Sybase 365, Inc. Context-Based Suggestions Mechanism and Adaptive Push Mechanism for Natural Language Systems
WO2009119219A1 (ja) * 2008-03-26 2009-10-01 ブラザー工業株式会社 情報提示装置及びコンピュータプログラムを記録した記録媒体、並びに情報提示方法
CN102844807A (zh) * 2010-04-12 2012-12-26 丰田自动车株式会社 操作系统及操作方法
US8515752B1 (en) * 2001-02-07 2013-08-20 Google Inc. Voice interface for a search engine
US20140143223A1 (en) * 2012-11-19 2014-05-22 Microsoft Corporation Search Query User Interface
US20140156277A1 (en) * 2012-11-30 2014-06-05 Kabushiki Kaisha Toshiba Information processing device and content retrieval method
CN104731854A (zh) * 2013-12-18 2015-06-24 哈曼国际工业有限公司 语音识别查询响应系统
US20150302012A1 (en) * 2010-12-10 2015-10-22 Amazon Technologies, Inc. Generating suggested search queries
US20150340033A1 (en) * 2014-05-20 2015-11-26 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20160253418A1 (en) * 2015-02-27 2016-09-01 Wal-Mart Stores, Inc. System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
US20170193111A1 (en) * 2016-01-06 2017-07-06 Google Inc. Search result prefetching of voice queries

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2000276395A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
JP2002207761A (ja) * 2001-01-10 2002-07-26 Just Syst Corp 検索装置、検索方法、プログラム、ならびに、記録媒体
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
US20030233230A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for representing and resolving ambiguity in spoken dialogue systems
WO2004066125A2 (en) * 2003-01-14 2004-08-05 V-Enable, Inc. Multi-modal information retrieval system
JP4967519B2 (ja) * 2006-08-11 2012-07-04 日産自動車株式会社 音声認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US20080134038A1 (en) * 2006-12-05 2008-06-05 Electronics And Telecommunications Research Interactive information providing service method and apparatus
US7720721B1 (en) * 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8046220B2 (en) * 2007-11-28 2011-10-25 Nuance Communications, Inc. Systems and methods to index and search voice sites
US20090287626A1 (en) * 2008-05-14 2009-11-19 Microsoft Corporation Multi-modal query generation
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US9129606B2 (en) * 2011-09-23 2015-09-08 Microsoft Technology Licensing, Llc User query history expansion for improving language model adaptation
US8812518B1 (en) * 2012-02-02 2014-08-19 Google Inc. Synonym identification based on search quality
WO2013146736A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 同義関係判定装置、同義関係判定方法、及びそのプログラム
US8538984B1 (en) * 2012-04-03 2013-09-17 Google Inc. Synonym identification based on co-occurring terms
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
JP5948192B2 (ja) * 2012-09-10 2016-07-06 富士通テン株式会社 施設検索装置、施設検索方法、ナビゲーション装置
JP6223739B2 (ja) * 2013-07-24 2017-11-01 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150161198A1 (en) * 2013-12-05 2015-06-11 Sony Corporation Computer ecosystem with automatically curated content using searchable hierarchical tags
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
JP6357055B2 (ja) 2014-08-26 2018-07-11 ダイハツ工業株式会社 内燃機関のシール構造
US10614799B2 (en) * 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
JP7059813B2 (ja) * 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1394331A (zh) * 2000-09-08 2003-01-29 皇家菲利浦电子有限公司 具有替换命令的语音识别方法
US8515752B1 (en) * 2001-02-07 2013-08-20 Google Inc. Voice interface for a search engine
US7353176B1 (en) * 2001-12-20 2008-04-01 Ianywhere Solutions, Inc. Actuation system for an agent oriented architecture
US20090144248A1 (en) * 2001-12-20 2009-06-04 Sybase 365, Inc. Context-Based Suggestions Mechanism and Adaptive Push Mechanism for Natural Language Systems
US20070233663A1 (en) * 2006-03-30 2007-10-04 Kabushiki Kaisha Toshiba Method, apparatus, and computer program product for searching information
US20080046230A1 (en) * 2006-07-14 2008-02-21 Fujitsu Limited Reception support system and program therefor
CN101295293A (zh) * 2007-04-29 2008-10-29 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法
WO2009119219A1 (ja) * 2008-03-26 2009-10-01 ブラザー工業株式会社 情報提示装置及びコンピュータプログラムを記録した記録媒体、並びに情報提示方法
CN102844807A (zh) * 2010-04-12 2012-12-26 丰田自动车株式会社 操作系统及操作方法
US20150302012A1 (en) * 2010-12-10 2015-10-22 Amazon Technologies, Inc. Generating suggested search queries
US20140143223A1 (en) * 2012-11-19 2014-05-22 Microsoft Corporation Search Query User Interface
US20140156277A1 (en) * 2012-11-30 2014-06-05 Kabushiki Kaisha Toshiba Information processing device and content retrieval method
CN104731854A (zh) * 2013-12-18 2015-06-24 哈曼国际工业有限公司 语音识别查询响应系统
US20150340033A1 (en) * 2014-05-20 2015-11-26 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20160253418A1 (en) * 2015-02-27 2016-09-01 Wal-Mart Stores, Inc. System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
US20170193111A1 (en) * 2016-01-06 2017-07-06 Google Inc. Search result prefetching of voice queries

Also Published As

Publication number Publication date
DE102017104094A1 (de) 2017-09-14
US10629197B2 (en) 2020-04-21
DE102017104094B4 (de) 2021-02-25
JP6481643B2 (ja) 2019-03-13
JP2017161644A (ja) 2017-09-14
CN107170447A (zh) 2017-09-15
US20170263250A1 (en) 2017-09-14

Similar Documents

Publication Publication Date Title
JP6678710B2 (ja) 自己学習自然言語理解を伴うダイアログ・システム
US11875820B1 (en) Context driven device arbitration
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US9966077B2 (en) Speech recognition device and method
US8560317B2 (en) Voice recognition apparatus and recording medium storing voice recognition program
EP3477635B1 (en) System and method for natural language processing
AU2011209760B2 (en) Integration of embedded and network speech recognizers
KR20190082900A (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
EP2518447A1 (en) System and method for fixing user input mistakes in an in-vehicle electronic device
KR20160010961A (ko) 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US20170018268A1 (en) Systems and methods for updating a language model based on user input
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
CN107170447B (zh) 声音处理系统以及声音处理方法
CN111179940A (zh) 一种语音识别方法、装置及计算设备
WO2020233381A1 (zh) 基于语音识别的服务请求方法、装置及计算机设备
CN110809796B (zh) 具有解耦唤醒短语的语音识别系统和方法
CN112863496B (zh) 一种语音端点检测方法以及装置
KR20220109238A (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
CN111712790A (zh) 计算设备的语音控制
JP2015102805A (ja) 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム
US11790898B1 (en) Resource selection for processing user inputs
US20230178071A1 (en) Method for determining a vehicle domain and a speech recognition system for a vehicle
JP7092653B2 (ja) 評価装置、評価方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant