CN106067996A - 语音再现方法、语音对话装置 - Google Patents

语音再现方法、语音对话装置 Download PDF

Info

Publication number
CN106067996A
CN106067996A CN201610204408.XA CN201610204408A CN106067996A CN 106067996 A CN106067996 A CN 106067996A CN 201610204408 A CN201610204408 A CN 201610204408A CN 106067996 A CN106067996 A CN 106067996A
Authority
CN
China
Prior art keywords
voice
reproducting method
speech
talker
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610204408.XA
Other languages
English (en)
Other versions
CN106067996B (zh
Inventor
松冈智美
坂口敦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2016008005A external-priority patent/JP6678315B2/ja
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN106067996A publication Critical patent/CN106067996A/zh
Application granted granted Critical
Publication of CN106067996B publication Critical patent/CN106067996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明涉及语音再现方法、语音对话装置。本公开提供能够采用与讲话者的周围的状况相应的再现方法再现应答语音的语音再现方法、语音对话装置和语音对话程序。语音再现方法包括:取得包含对语音对话系统讲话的讲话语音的、表示讲话语音的讲话者的周围的声音的周围语音信息的步骤(S301);将周围语音信息分离为包含讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息的步骤(S302);将第1语音信息的声级和第2语音信息的声级进行比较的步骤(S303);以及根据比较的结果,采用第1再现方法和再现的语音的指向性与第1再现方法不同的第2再现方法的某一方再现应答语音的步骤(S304、S305)。

Description

语音再现方法、语音对话装置
技术领域
本公开涉及将对于讲话语音的应答语音进行再现的语音再现方法、语音对话装置。
背景技术
以往,提出了如下技术:在对话系统中,根据由呈阵列状配置的多个麦克风拾取的讲话者的讲话信号,来推定讲话者存在的方向,并将呈阵列状配置的多个扬声器的指向性朝向讲话者存在的方向再现应答语音。
例如,专利文献1中公开了一种语音输入装置,具备:由排列的多个麦克风构成的麦克风阵列;由排列的多个扬声器构成的扬声器阵列;和基于与由麦克风阵列检测出的讲话者的方向相关的信息而将扬声器阵列的指向性朝向讲话者的方向的控制单元。
另外,例如专利文献2中公开了一种指向性扩音装置,该装置在能够利用多个扬声器在不同的区域听取不同的信号源的声音的指向性扩音控制系统中,在预定的听取区域难以听到某个信号源的声音,或者为了在不同的听取区域听到各自分开的声音而将各自分开的声音信息传达到多个听取区域。
在先技术文献
专利文献1:日本特开2006-270876号公报
专利文献2:日本特开2001-95082号公报
发明内容
但是,上述的以往的装置中,始终将指向性只朝向讲话者存在的方向再现应答语音,因此有时语音对话系统会发生不良情况。例如有可能发生以下这样的不良情况:在想要听到(想要使其听到)应答语音的人没有进入指向性区域的情况下,该人没能听到应答语音;或者,在不想听到(不想使其听到)应答语音的人进入指向性区域的情况下,该人听到了应答语音。
本公开的一技术方案涉及的语音再现方法,是语音对话系统中的语音再现方法,取得包含对所述语音对话系统讲话的讲话语音的、表示所述讲话语音的讲话者的周围的声音的周围语音信息,将所述周围语音信息分离为包含所述讲话语音的第1语音信息和包含除了所述讲话语音以外的声音的第2语音信息,将所述第1语音信息的声级和所述第2语音信息的声级进行比较,根据比较的结果,采用第1再现方法和再现的声音的指向性与所述第1再现方法不同的第2再现方法中的某一方再现对所述讲话语音的应答语音。
根据本公开,能够采用与讲话者的周围的状况相应的再现方法再现应答语音。
附图说明
图1是表示本公开的实施方式中的语音对话装置的构成的图。
图2是表示本公开的实施方式中的控制部的功能构成的图。
图3是表示本实施方式中的语音对话装置的工作的一例的流程图。
图4是表示本实施方式中的语音对话系统的构成的图。
图5是用于说明本实施方式中的语音对话系统的工作的顺序图。
图6是用于说明对语音对话装置讲话的讲话者的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下的应答语音的第1再现方法的示意图。
图7是用于说明对语音对话装置讲话的讲话者的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下的应答语音的第2再现方法的示意图。
图8是表示本实施方式的变形例4中的语音对话装置的工作的一例的流程图。
图9是表示本实施方式的变形例6中的语音对话系统的工作的一例的流程图。
图10是表示本实施方式的变形例7中的语音对话装置的工作的一例的流程图。
图11是表示本实施方式的变形例8中的语音对话装置的工作的一例的流程图。
图12是表示本实施方式的变形例9中的语音对话装置的工作的一例的流程图。
图13是表示本实施方式的变形例10中的语音对话装置的工作的一例的流程图。
图14是表示本实施方式的变形例11中的语音对话装置的工作的一例的流程图。
图15是表示本实施方式的变形例12中的语音对话装置的工作的一例的流程图。
附图标记说明
100 语音对话装置
101 语音取得部
102 通信部
103 显示部
104 控制部
105 再现部
106 图像取得部
107 声音信息DB
110 服务器装置
111 控制部
112 通信部
113 声音信息DB
201 声音信息取得部
202 分析部
203 判断部
204 通常再现控制部
205 区域再现控制部
206 再现控制部
具体实施方式
(成为本公开的基础的见解)
考虑到:一般来说,在通过讲话者对语音对话系统发出语音指令来控制设备时,是在混入了周围的噪音或除了对语音对话系统讲话的讲话者以外的讲话者的语音的噪音环境下使用语音对话系统。因此,正在研究:通过使来自语音对话系统的应答语音具有指向性,从而仅向正在与语音对话系统对话的人再现应答语音。例如,在语音对话系统前存在多个人,想要听到对于讲话语音的应答语音的人只有讲话者一人的情况下,如果采用不具有指向性的通常的再现方法再现应答语音,则有时由于周围的杂音等噪音导致讲话者难以听到应答语音,或原本不想被其听到的人听到了应答语音。因此,例如专利文献1所公开的技术那样,将扬声器的指向性只朝向特定的人的方向再现应答语音是有效的。
但是,如果使用专利文献1所公开的装置,则有可能产生下述问题。例如存在这样的问题:在语音对话系统前存在多个人,其所有人想要听到对于讲话语音的应答语音的情况下,如果像专利文献1那样将指向性只朝向讲话的特定的人的位置再现应答语音,则想要听到应答语音的除了讲话者以外的人无法听到应答语音。
即,专利文献1的装置无法根据讲话者的周围的状况而采用最佳的再现方法再现应答语音。另外,专利文献2的装置也同样没有对根据讲话者的周围的状况而采用最佳的再现方法再现应答语音进行研究。
为解决上述那样的问题,本公开的一技术方案涉及的语音再现方法,是语音对话系统中的语音再现方法,取得包含对所述语音对话系统讲话的讲话语音的、表示所述讲话语音的讲话者的周围的声音的周围语音信息,将所述周围语音信息分离为包含所述讲话语音的第1语音信息和包含除了所述讲话语音以外的声音的第2语音信息,将所述第1语音信息的声级和所述第2语音信息的声级进行比较,根据比较的结果,采用第1再现方法和再现的语音的指向性与所述第1再现方法不同的第2再现方法中的某一方再现对所述讲话语音的应答语音。
根据该构成,取得包含对语音对话系统讲话的讲话语音的、表示讲话语音的讲话者的周围的声音的周围语音信息。周围语音信息被分离为包含讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。将第1语音信息的声级和第2语音信息的声级进行比较。根据比较的结果,采用第1再现方法和再现的语音的指向性与第1再现方法不同的第2再现方法中的某一方再现对于讲话语音的应答语音。
因此,根据包含对语音对话系统讲话的讲话语音的第1语音信息的声级、与包含除了讲话语音以外的声音的第2语音信息的声级的比较结果,采用第1再现方法和再现的语音的指向性与第1再现方法不同的第2再现方法中的某一方再现应答语音,所以能够采用与讲话者的周围的状况相应的再现方法再现应答语音。
另外,上述的语音再现方法中,可以设置成:所述第1再现方法是不具有指向性的再现方法,所述第2再现方法是对所述讲话者具有指向性的再现方法,在所述第1语音信息的声级高于所述第2语音信息的声级的情况下,采用所述第1再现方法再现所述应答语音,在所述第1语音信息的声级低于所述第2语音信息的声级的情况下,采用所述第2再现方法再现所述应答语音。
根据该构成,第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。在第1语音信息的声级高于第2语音信息的声级的情况下,采用第1再现方法再现应答语音,在第1语音信息的声级低于第2语音信息的声级的情况下,采用第2再现方法再现应答语音。
设想:在第1语音信息的声级高于第2语音信息的声级的情况下,除了讲话者以外的人也为了确认应答语音而不发出声音。因此,第1语音信息的声级高于第2语音信息的声级的情况下,采用不具有指向性的再现方法再现应答语音,因此除了讲话者以外的人也能够听到应答语音。
另外,设想:在第1语音信息的声级低于第2语音信息的声级的情况下,除了讲话者以外的人由于不关心应答语音从而发出了声音。因此,第1语音信息的声级低于第2语音信息的声级的情况下,采用对讲话者具有指向性的再现方法再现应答语音,因此只有讲话者能够听到应答语音。
另外,上述的语音再现方法中,可以设置成:对所述第1语音信息进行语音识别,使用所述语音识别的结果来生成应答语音,采用所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音。
根据该构成,对分离出的第1语音信息进行语音识别。使用语音识别的结果生成应答语音。所生成的应答语音通过第1再现方法和第2再现方法中的某一方再现。
因此,能够使用对于第1语音信息的语音识别的结果生成应答语音。
另外,上述的语音再现方法中,可以设置成:所述周围语音信息包含从含有多个麦克风的阵列麦克风系统取得的、以每预定的角度具有指向性的多个周围语音信息,通过判断所述多个周围语音信息的各自是否为对所述语音对话系统的所述讲话语音,而将所述周围语音信息分离为所述第1语音信息和所述第2语音信息。
根据该构成,周围语音信息包含从含有多个麦克风的阵列麦克风系统取得的、以每预定的角度具有指向性的多个周围语音信息。通过判断多个周围语音信息的各自是否为对语音对话系统的讲话语音,能够将周围语音信息分离为第1语音信息和第2语音信息。
另外,上述的语音再现方法中,可以设置成:在采用所述第2再现方法再现所述应答语音时,向所述多个周围语音信息中的、判断为是对所述语音对话系统的所述讲话语音的所述周围语音信息被取得的角度的方向,再现所述应答语音。
根据该构成,采用第2再现方法再现应答语音时,向判断为是对语音对话系统的讲话语音的周围语音信息被取得的角度的方向,再现应答语音。因此,能够向讲话者所在的方向切实地再现应答语音。
另外,上述的语音再现方法中,可以设置成:在所述多个周围语音信息的某一个包含预先存储的预定的关键字的情况下,判断为该包含预定的关键字的周围语音信息是对所述语音对话系统的讲话语音。
根据该构成,在多个周围语音信息的某一个包含预定的关键字的情况下,判断为该包含预定的关键字的周围语音信息是对语音对话系统的讲话语音。
因此,能够从多个周围语音信息中,切实地分离出包含对语音对话系统的讲话语音的第1语音信息。
另外,上述的语音再现方法中,可以设置成:采用谱减法将所述周围语音信息分离为所述第1语音信息和所述第2语音信息。
根据该构成,能够采用谱减法,从而将周围语音信息分离为第1语音信息和第2语音信息。
另外,上述的语音再现方法中,可以设置成:根据所述周围语音信息来识别周围的人,基于将所述第1语音信息的声级和所述第2语音信息的声级比较的结果、以及识别所述周围的人的结果,切换采用所述第1再现方法和所述第2再现方法中的哪一方进行再现。
根据该构成,通过周围语音信息来识别讲话者的周围的人。基于将第1语音信息的声级和第2语音信息的声级比较的结果、以及识别讲话者周围的人的结果,切换采用第1再现方法和第2再现方法中的哪一方进行再现。
因此,可以根据讲话者的周围的人是谁,而切换采用不具有指向性的再现方法和对讲话者具有指向性的再现方法中的哪一方再现应答语音。
另外,上述的语音再现方法中,可以设置成:使用将过去取得的所述第1语音信息与过去再现所述第1语音信息时所选择的所述第1再现方法和所述第2再现方法中的某一方相关联地存储的表格,选择再现所述应答语音的再现方法。
根据该构成,使用将过去取得的第1语音信息与过去再现第1语音信息时所选择的第1再现方法和第2再现方法中的某一方相关联地存储的表格,选择再现应答语音的再现方法。
因此,基于过去的历史记录选择再现方法,所以能够缩短决定再现方法所需的处理时间。
另外,上述的语音再现方法中,可以设置成:取得所述语音对话系统的周围的图像,根据所述图像来检测注视着所述语音对话系统的人,在采用所述第2再现方法再现所述应答语音时,向检测出的所述人再现所述应答语音。
根据该构成,取得语音对话系统的周围的图像,根据图像来检测注视着语音对话系统的人。在采用第2再现方法再现应答语音时,向检测出的人再现应答语音。
因此,由于注视着语音对话系统的人有可能关心应答语音,所以能够向注视着语音对话系统的人再现应答语音。
另外,上述的语音再现方法中,可以设置成:所述第1再现方法是不具有指向性的再现方法,所述第2再现方法是对讲话者具有指向性的再现方法,取得所述语音对话系统的周围的图像,根据所述图像来检测注视着所述语音对话系统的人的数量,根据所述人的数量的检测结果来判断是否为多个人注视着所述语音对话系统,在判断为多个人注视着所述语音对话系统的情况下,采用所述第1再现方法再现所述应答语音,在判断为不是多个人注视着所述语音对话系统的情况下,采用所述第2再现方法再现所述应答语音。
根据该构成,第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。取得语音对话系统的周围的图像,根据图像检测注视着语音对话系统的人的数量。根据人的数量的检测结果判断是否为多个人注视着语音对话系统。在判断为多个人注视着语音对话系统的情况下,采用第1再现方法再现应答语音。另外,在判断为不是多个人注视着语音对话系统的情况下,采用第2再现方法再现应答语音。
因此,在多个人注视着语音对话系统的情况下,能够采用不具有指向性的再现方法再现应答语音以使多个人能听到应答语音,而在不是多个人注视着语音对话系统的情况、即只有讲话者注视着语音对话系统的情况下,能够采用对讲话者具有指向性的再现方法再现应答语音。
另外,上述的语音再现方法中,可以设置成:所述第1再现方法是不具有指向性的再现方法,所述第2再现方法是对讲话者具有指向性的再现方法,通过所述讲话者持有的拾音装置拾取所述讲话语音,取得所述语音对话系统的周围的图像,根据所述图像来确定对所述拾音装置讲话的所述讲话者的位置,判断是否在由所述讲话者对所述拾音装置输入了预定的指示信号的状态下拾取到所述讲话语音,在判断为不是在所述预定的指示信号被输入了所述拾音装置的状态下拾取到所述讲话语音的情况下,采用所述第1再现方法再现所述应答语音,在判断为在所述预定的指示信号被输入了所述拾音装置的状态下拾取到所述讲话语音的情况下,采用所述第2再现方法再现所述应答语音。
根据该构成,第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。通过讲话者持有的拾音装置拾取讲话语音。取得语音对话系统的周围的图像,根据图像来确定对拾音装置讲话的讲话者的位置。判断是否在由讲话者对拾音装置输入了预定的指示信号的状态下拾取到讲话语音。在判断为不是在预定的指示信号被输入了拾音装置的状态下拾取到讲话语音的情况下,采用第1再现方法再现应答语音。另外,在判断为在预定的指示信号被输入了拾音装置的状态下拾取到讲话语音的情况下,采用第2再现方法再现应答语音。
因此,在由讲话者对拾音装置输入了预定的指示信号的状态下讲话的情况下,仅对讲话者再现应答语音,所以能够采用反映出讲话者的意图的再现方法再现应答语音。
另外,上述的语音再现方法中,可以设置成:所述第1再现方法是不具有指向性的再现方法,所述第2再现方法是对讲话者具有指向性的再现方法,所述周围语音信息包含从含有多个麦克风的阵列麦克风系统取得的、以每预定的角度具有指向性的多个周围语音信息,通过判断所述多个周围信息的各自是否为对所述语音对话系统的所述讲话语音,而将所述多个周围语音信息分离为所述第1语音信息和所述第2语音信息,基于取得了包含所述第1语音信息的周围语音信息的麦克风的指向性来确定所述讲话者的位置,参照将所述讲话者的位置与所述第1再现方法和所述第2再现方法中的某一方相对应地存储的声音信息数据库,来判断确定出的所述讲话者的位置是否关联有所述第1再现方法和所述第2再现方法中的某一方,在判断为确定出的所述讲话者的位置关联有所述第1再现方法和所述第2再现方法中的某一方的情况下,采用与确定出的所述讲话者的位置相关联的所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音,在判断为所述第1再现方法和所述第2再现方法中的哪一方都没有与所述讲话者的位置相关联的情况下,将所述第1语音信息的声级和所述第2语音信息的声级进行比较,在所述第1语音信息的声级高于所述第2语音信息的声级的情况下,采用所述第1再现方法再现所述应答语音,在所述第1语音信息的声级低于所述第2语音信息的声级的情况下,采用所述第2再现方法再现所述应答语音,将确定出的所述讲话者的位置与再现了所述应答语音的所述第1再现方法和所述第2再现方法中的某一方相关联地存储于所述语音信息数据库。
根据该构成,第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。周围语音信息包含从含有多个麦克风的阵列麦克风系统取得的、以每预定的角度具有指向性的多个周围语音信息。通过判断多个周围语音信息的各自是否为对语音对话系统的讲话语音,而将多个周围语音信息分离为第1语音信息和第2语音信息。基于取得了包含第1语音信息的周围语音信息的麦克风的指向性来确定讲话者的位置。参照将讲话者的位置与第1再现方法和第2再现方法中的某一方相对应地存储的声音信息数据库,来判断确定出的讲话者的位置是否关联有第1再现方法和第2再现方法中的某一方。在判断为确定出的讲话者的位置关联有第1再现方法和第2再现方法中的某一方的情况下,采用与确定出的讲话者的位置相关联的第1再现方法和第2再现方法中的某一方再现应答语音。另外,在判断为第1再现方法和第2再现方法中的哪一方都没有与确定出的讲话者的位置相关联的情况下,将第1语音信息的声级和第2语音信息的声级进行比较。在第1语音信息的声级高于第2语音信息的声级的情况下,采用第1再现方法再现应答语音。另外,在第1语音信息的声级低于第2语音信息的声级的情况下,采用第2再现方法再现应答语音。将确定出的讲话者的位置与再现了应答语音的第1再现方法和第2再现方法中的某一方相关联地存储于语音信息数据库。
因此,能够预先将讲话者的位置与再现方法相关联地存储于语音信息数据库,在讲话者的位置与预先存储于语音信息数据库的讲话者的位置相同的情况下,选择与所存储的讲话者的位置相关联的再现方法,能够缩短决定再现方法所需的处理时间。
另外,上述的语音再现方法中,可以设置成:识别发出所述讲话语音的讲话者,从将识别所述讲话者的信息与所述第1再现方法和所述第2再现方法中的某一方相关联地存储的语音信息数据库中,选择与识别出的所述讲话者相关联的所述第1再现方法和所述第2再现方法中的某一方,采用所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音。
根据该构成,识别发出讲话语音的讲话者。从将识别讲话者的信息与第1再现方法和第2再现方法中的某一方相关联地存储的语音信息数据库中,选择与识别出的讲话者相关联的第1再现方法和第2再现方法中的某一方。采用第1再现方法和第2再现方法中的某一方再现所述应答语音。
因此,能够预先将识别讲话者的信息与再现方法相关联地存储于语音信息数据库,在识别出的讲话者与预先存储于语音信息数据库的识别讲话者的信息相同的情况下,选择与所存储的识别讲话者的信息相关联的再现方法,能够缩短决定再现方法所需的处理时间。
另外,上述的语音再现方法中,可以设置成:所述第1再现方法是不具有指向性的再现方法,所述第2再现方法是对讲话者具有指向性的再现方法,判断分离出的所述第1语音信息是否包含预先存储于存储部的预定的关键字,在判断为所述第1语音信息包含所述预定的关键字的情况下,采用所述第1再现方法再现所述应答语音,在判断为所述第1语音信息不包含所述预定的关键字的情况下,采用所述第2再现方法再现所述应答语音。
根据该构成,第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。判断分离出的第1语音信息是否包含预先存储于存储部的预定的关键字。在判断为第1语音信息包含预定的关键字的情况下,采用第1再现方法再现应答语音。另外,在判断为第1语音信息不包含预定的关键字的情况下,采用第2再现方法再现应答语音。
因此,根据第1语音信息是否包含预先存储于存储部的预定的关键字来决定再现方法,所以能够容易地决定再现方法。
另外,上述的语音再现方法中,可以设置成:对分离出的所述第1语音信息的讲话内容进行分析,判断分析出的所述讲话内容是否与上一次取得的第1语音信息的讲话内容相同,在判断为分析出的所述讲话内容与上一次的讲话内容相同的情况下,不再现所述应答语音,在判断为分析出的所述讲话内容与上一次的讲话内容不同的情况下,将所述第1语音信息的声级与所述第2语音信息的声级进行比较,根据比较的结果,采用所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音,将分析出的所述讲话内容存储于所述存储部。
根据该构成,对分离出的第1语音信息的讲话内容进行分析。判断分析出的讲话内容是否与上一次取得的第1语音信息的讲话内容相同。在判断为分析出的讲话内容与上一次的讲话内容相同的情况下,不再现应答语音。另外,在判断为分析出的讲话内容与上一次的讲话内容不同的情况下,将第1语音信息的声级和第2语音信息的声级进行比较。根据比较的结果,采用第1再现方法和第2再现方法中的某一方再现应答语音。并且,将分析出的讲话内容存储于存储部。
因此,例如能够在讲话者的周围的噪音大而难以听到应答语音的情况下,中止对于第2次的讲话语音的应答语音的再现,所以能够取消不必要的应答语音的再现。
另外,上述的语音再现方法中,可以设置成:所述第1再现方法是不具有指向性的再现方法,所述第2再现方法是对讲话者具有指向性的再现方法,将分离出的所述第2语音信息中所含的人的语音的声级作为通常声级存储于声级数据库,判断分离出的所述第1语音信息的声级是否高于存储于所述声级数据库的所述通常声级的平均值,在判断为所述第1语音信息的声级高于所述通常声级的平均值的情况下,采用所述第1再现方法再现所述应答语音,在判断为所述第1语音信息的声级低于所述通常声级的平均值的情况下,采用所述第2再现方法再现所述应答语音。
根据该构成,第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。分离出的第2语音信息中所含的人的语音的声级作为通常声级存储于声级数据库。判断分离出的第1语音信息的声级是否高于存储于声级数据库的通常声级的平均值。在判断为第1语音信息的声级高于通常声级的平均值的情况下,采用第1再现方法再现应答语音。另外,在判断为第1语音信息的声级低于通常声级的平均值的情况下,采用第2再现方法再现应答语音。
因此,能够通过将对语音对话系统发出指示的讲话语音的声级和通常的会话中讲话者讲话的语音的声级进行比较,来决定再现方法。
另外,上述的语音再现方法中,可以设置成:将所述第1语音信息的声级和所述第2语音信息的声级进行比较,根据比较的结果,采用所述第1再现方法和所述第2再现方法中的某一方,将被所述讲话语音控制的控制对象设备再现的语音再现。
根据该构成,根据比较第1语音信息的声级和第2语音信息的声级的结果,采用第1再现方法和第2再现方法中的某一方,将被讲话语音控制的控制对象设备再现的语音再现。
因此,不仅是对讲话语音的应答语音,对于被讲话语音控制的控制对象设备再现的语音的再现方法,也能够进行控制。
本公开的另一技术方案涉及的语音对话装置,具备:声音分离部,其将包含对所述语音对话装置讲话的讲话语音的、表示所述讲话语音的讲话者的周围的声音的周围语音信息,分离为包含所述讲话语音的第1语音信息和包含除了所述讲话语音以外的声音的第2语音信息;比较部,其将所述第1语音信息的声级和所述第2语音信息的声级进行比较;以及再现控制部,其根据比较的结果,采用第1再现方法和再现的语音的指向性与所述第1再现方法不同的第2再现方法中的某一方再现对所述讲话语音的应答语音。
根据该构成,取得包含对语音对话装置讲话的讲话语音的、表示讲话语音的讲话者的周围的声音的周围语音信息。周围语音信息被分离为包含讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。将第1语音信息的声级和第2语音信息的声级进行比较。根据比较的结果,采用第1再现方法和再现的语音的指向性与第1再现方法的不同的第2再现方法中的某一方再现应答语音。
因此,根据包含对语音对话装置讲话的讲话语音的第1语音信息的声级、和包含除了讲话语音以外的声音的第2语音信息的声级的比较结果,采用第1再现方法和再现的语音的指向性与第1再现方法的不同的第2再现方法中的某一方再现应答语音,所以能够采用与讲话者的周围的状况相应的再现方法再现应答语音。
本公开的另一技术方案涉及的语音对话程序,将语音对话装置作为语音分离部、比较部和再现控制部发挥功能,语音分离部将包含对所述语音对话装置讲话的讲话语音的、表示所述讲话语音的讲话者的周围的声音的周围语音信息,分离为包含所述讲话语音的第1语音信息和包含除了所述讲话语音以外的声音的第2语音信息,比较部将所述第1语音信息的声级和所述第2语音信息的声级进行比较,再现控制部根据比较的结果,采用第1再现方法和再现的语音的指向性与所述第1再现方法不同的第2再现方法中的某一方再现对于所述讲话语音的应答语音。
根据该构成,取得包含对语音对话装置讲话的讲话语音的、表示讲话语音的讲话者的周围的声音的周围语音信息。周围语音信息被分离为包含讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。将第1语音信息的声级和第2语音信息的声级进行比较。根据比较的结果,采用第1再现方法和再现的语音的指向性与第1再现方法不同的第2再现方法的某一方再现应答语音。
因此,根据包含对语音对话装置讲话的讲话语音的第1语音信息的声级、和包含除了讲话语音以外的声音的第2语音信息的声级的比较结果,采用第1再现方法和再现的语音的指向性与第1再现方法不同的第2再现方法的某一方再现应答语音,所以能够采用与讲话者的周围的状况相应的再现方法再现应答语音。
以下,参照附图对本公开的实施方式中的语音对话装置或语音对话系统进行说明。再者,以下说明的实施方式都只是表示本公开的一具体例。以下的实施方式中所示的数值、形状、构成要素、步骤或步骤的顺序等只是一例,并不意在限定本公开。另外,对于以下的实施方式中的构成要素之中未记载于表示最上位概念的独立权利要求的构成要素,作为任意的构成要素进行说明。另外,可以在所有实施方式中,将各自的内容组合。
再者,这些全面的或具体的技术方案,既可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质而实现,也可以通过系统、方法、集成电路、计算机程序或计算机可读取的记录介质的任意组合而实现。
(语音对话装置的构成)
图1是表示本公开的实施方式中的语音对话装置的构成的图。图1所示的语音对话装置100是将本实施方式中的所有构成具备于一个装置的构成例。关于另一构成例会利用图4在后面描述。再者,图1所示的语音对话装置100的构成只是一例,既可以具备除了图1所示的构成以外的构成,也可以缺少一部分构成。
图1表示作为本实施方式的一技术方案的语音对话装置100的构成例。语音对话装置100具备语音取得部101、通信部102、显示部103、控制部104、再现部105、图像取得部106和声音信息DB(数据库)107。再者,各构成可以不必一定设于语音对话装置100的内部。例如,通信部102、显示部103、图像取得部106或声音信息DB107并不是语音对话装置100必须的构成。另外,可以设置成:语音取得部101设于语音对话装置100的外部装置,语音对话装置100与外部装置有线或无线连接。语音对话装置100并不限于在一个家庭只配置一台,有时也会在一个家庭配置多台。
另外,语音对话装置100既可以是例如电视等家用电器,也可以是搭载有麦克风、扬声器或相机的专用的装置。
首先,利用图1对作为本实施方式的一技术方案的语音对话装置100的各构成进行说明。
语音取得部101例如为麦克风等。语音取得部101取得的声音中,包含在使用语音对话装置100时对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音、除了对语音对话装置100(语音对话系统)发出语音指令的讲话者以外的人的语音、从讲话者的周围的设备发出的设备噪声、或生活声音等周围的噪音等。
在此,语音取得部101优选具备对取得语音时的指向性进行控制的指向性控制部、和对取得的语音进行声源分离的信号处理部(未图示)。由此,能够按到达语音取得部101的各声音的到来方向(区域)取得(分离)语音,所以能够使分离为发出语音指令的讲话者的讲话语音、除了该讲话者以外的人的语音、和周围的噪音的精度提高。再者,信号处理部(未图示)可以包含于控制部104。
通信部102通过与因特网等网络连接而与其它设备或服务器装置通信,发送接收各种信息。如上所述通信部102并不是语音对话装置100必须的构成。
显示部103显示各种信息。显示部103只要是一般的显示器即可,因此省略说明。如上所述显示部103并不是语音对话装置100必须的构成。
控制部104例如为CPU(中央运算处理装置)、处理器或微型计算机等,控制其它设备,并具有语音识别处理、图像处理或拾音信号处理等功能。控制部104控制语音取得部101和显示部103等各构成的工作。另外,控制部104不需要在物理上合并为1个控制单元,在搭载物理上分开的多个控制单元的情况下,多个控制单元全部包含于控制部104。关于控制部104的功能会在后面描述。
再现部105对由控制部104控制后的信号进行再现。再现部105例如是将多个扬声器单元配置于阵列上的扬声器(阵列扬声器),只要是能够对再现的应答语音的指向性进行控制的扬声器即可。再现部105可以不设置于语音对话装置100内。例如,再现部105可以是外设的扬声器等,再现部105与语音对话装置100可以有线或无线连接。
例如语音对话装置100为电视机的情况下,图像取得部106是设置于电视机的相机。如果确定对语音对话装置100讲话的讲话者的位置,则能够通过将指向性朝向讲话者的位置,而使应答语音准确地返回讲话者的位置,能够提高语音识别精度。如上所述,在本实施方式中图像取得部106并不是语音对话装置100必须的构成。关于利用图像取得部106而将指向性朝向对语音对话装置100讲话的讲话者的位置的方法,其详细情况,会在实施方式2中进行说明。
声音信息DB107存储有由语音取得部101取得的对语音对话装置100讲话的讲话者的语音指令或语音信息。声音信息DB107可以将对语音对话装置100讲话的讲话者发出语音指令的次数或包含语音指令的声级的个人的语音信号的特征相关联地管理和存储。如果声音信息DB107管理和存储这些信息,则控制部104通过分析由语音取得部101取得的对语音对话装置100讲话的讲话者的语音指令的特征,并分析具有与存储于声音信息DB107的语音指令相同的声级或特征的语音指令,从而了解到对语音对话装置100讲话的讲话者使用语音对话装置100的时间的频率或周围的噪声级的变动。由此,能够采用与讲话者对语音对话装置100发出语音指令的时间、环境或状况相应的再现方法调整音量、进行应答。再者,如上所述声音信息DB107并不是语音对话装置100必须的构成。
(控制部的功能构成)
利用图2来说明控制部104的功能构成。图2是表示本公开的实施方式中的控制部的功能构成的图。再者,图2中记载的控制部104的功能构成只是一例,也可以具备图2所示的控制部104的功能构成以外的构成。
语音对话装置100的控制部104具备声音信息取得部201、分析部202、判断部203和再现控制部206。关于各部的工作和处理的流程会利用图3在后面描述。
声音信息取得部201取得包含对语音对话装置讲话的讲话语音的、表示讲话语音的讲话者的周围的声音的周围语音信息。
分析部202将由声音信息取得部201取得的周围语音信息分离为包含对语音对话装置100讲话的讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。
判断部203将第1语音信息的声级和第2语音信息的声级进行比较。判断部203判断第1语音信息的声级是否高于第2语音信息的声级。
再现控制部206根据由判断部203进行比较的结果,采用第1再现方法和再现的语音的指向性与第1再现方法的不同的第2再现方法中的任一方法再现应答语音。第1再现方法是不具有指向性的再现方法,第2再现方法是对讲话者具有指向性的再现方法。再现控制部206具备通常再现控制部204和区域再现控制部205。
通常再现控制部204在由判断部203判断为第1语音信息的声级高于第2语音信息的声级的情况下,采用第1再现方法再现应答语音。
区域再现控制部205在由判断部203判断为第1语音信息的声级低于第2语音信息的声级的情况下,采用第2再现方法再现应答语音。
再者,在由判断部203判断为第1语音信息的声级与第2语音信息的声级相同的情况下,可以由通常再现控制部204采用第1再现方法再现应答语音,也可以由区域再现控制部205采用第2再现方法再现应答语音。
(语音对话装置100的处理)
图3是表示本实施方式中的语音对话装置的工作的一例的流程图。
首先,声音信息取得部201取得由语音取得部101取得的声音信息(周围语音信息)(步骤S301)。该取得的声音信息中例如包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音、除了对语音对话装置100(语音对话系统)发出语音指令的讲话者以外的人的语音、和除了人讲话的语音以外的噪音。另外,在此,取得的声音信息优选是按各到来方向分离出的信息。如果语音取得部101是能够进行指向性拾音的麦克风,则声音信息取得部201能够取得每个声音到来方向(具有角度的多个区域)的声音信息。声音信息取得部201取得每个声音到来方向(具有角度的多个区域)的声音信息。声音信息取得部201将取得的声音信息输出到分析部202。即,声音信息取得部201可以取得从包含多个麦克风的阵列麦克风系统取得的、以每预定的角度具有指向性的多个周围语音信息。
接着,分析部202将由声音信息取得部201取得的周围语音信息分离为包含对语音对话装置100讲话的讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息(步骤S302)。
分析部202对由声音信息取得部201取得的声音信息进行分析(包括分类或分离)。
分析部202将声音信息至少分类为对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音和除了发出语音指令的讲话者以外的人讲话的语音。另外,分析部202也可以将声音信息分类为对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音、除了发出语音指令的讲话者以外的人讲话的语音、和除了语音以外的周围的噪声这三者。
在此,在步骤S301中,取得每个声音到来方向的声音信息的情况下,分析部202将每个声音到来方向(区域)的声音信息分别分类为包含对语音对话系统讲话的讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。即,分析部202可以通过判断取得的多个周围语音信息各自是否为对语音对话装置100的讲话语音,而将多个周围语音信息分离为第1语音信息和第2语音信息。
另外,记载了在步骤S301中优选取得每个声音到来方向的声音信息,但分析部202也可以对取得的声音信息进行分离为每个到来方向的声音信息的处理。即,分析部202可以在将取得的声音信息分离为每个声音到来方向(区域)的声音信息后,判断各到来方向(区域)的声音信息是包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的第1语音信息、还是包含除了讲话语音以外的声音的第2语音信息。
接着,判断部203将第1语音信息的声级和第2语音信息的声级进行比较,判断第1语音信息的声级是否高于第2语音信息的声级(步骤S303)。
判断部203基于由分析部202分析的结果,将对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音的声级和除此以外的声音的声级进行比较。在此,声级表示声音的高低,也可以表现为音量或声量(volume)。
接着,由判断部203进行比较的结果是,判断为包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的第1语音信息的声级高于包含除了讲话语音以外的声音的第2语音信息的声级的情况下(步骤S303中为是),向步骤S304的处理前进。另一方面,判断为包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的第1语音信息的声级低于包含除了讲话语音以外的声音的第2语音信息的声级的情况下(步骤S303中为否),向步骤S305的处理前进。
判断为第1语音信息的声级高于第2语音信息的声级的情况下,在步骤S304中,通常再现控制部204控制再现部105以使得采用第1再现方法再现应答语音。或者,通常再现控制部204生成用于控制再现部105以使得采用第1再现方法再现应答语音的控制信息。在此,第1再现方法是通常的再现方法。通常的再现方法是指不具有指向性地再现语音(应答语音)的再现方法。
另一方面,判断为第1语音信息的声级低于第2语音信息的声级的情况下,在步骤S305中,区域再现控制部205控制再现部105以使得采用第2再现方法再现应答语音。或者,区域再现控制部205生成用于控制再现部105以使得采用第2再现方法再现应答语音的控制信息。在此,第2再现方法是通过指向性再现而将语音(应答语音)再现的再现方法。第2再现方法中,应答语音仅朝向讲话者的方向再现。在此,在步骤S302中,按每个声音到来方向(区域),分类为包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息的情况下,区域再现控制部205对被分类为第1语音信息的区域进行指向性再现(区域再现)。
再者,再现部105可以使采用第2再现方法再现的应答语音的声级大于采用第1再现方法再现的应答语音的声级。
(语音对话系统的构成)
下面,利用图4来说明本实施方式的另一构成例。图4是表示本实施方式中的语音对话系统的构成的图。语音对话系统具备语音对话装置100和服务器装置110。
图4所示的构成例中,语音对话装置100经由网络120与外部的服务器装置110以能够相互通信的方式连接。对于服务器装置110与语音对话装置100的连接(通信)方法不特别限定。服务器装置110与语音对话装置100既可以无线连接,也可以有线连接。关于服务器装置110的设置场所不特别限定。服务器装置110既可以配置于对处理大数据的数据中心进行管理和运营的公司所持有的数据中心,也可以配置于各家庭。即,服务器装置110既可以与语音对话装置100配置于同一空间,也可以与语音对话装置100配置于不同空间。
图4的例子中,语音对话装置100具备语音取得部101、通信部102、显示部103、控制部104、再现部105、图像取得部106和声音信息DB107。与图1所示的例子同样,显示部103、图像取得部106和声音信息DB107并不是语音对话装置100必须的构成。但在图4的例子中,通信部102成为语音对话装置100必须的构成。另外,服务器装置110具备控制部111、通信部112和声音信息DB113。
关于图4所示的语音对话装置100的各构成的功能,与上述说明的各构成相同,因此省略说明。通信部102例如经由作为因特网的网络120与服务器装置110的通信部112连接。由此,通信部102能够将由语音对话装置100取得的声音信息发送到服务器装置110。服务器装置110可以经由通信部112与多个语音对话装置连接。
服务器装置110中的控制部111、通信部112和声音信息DB113的基本功能,与语音对话装置100中的控制部104、通信部102和声音信息DB107的功能相同,因此省略其说明。
如图4所示的构成例那样,语音对话装置100通过与服务器装置110通信,能够将一部分的构成设置于服务器装置110侧。换言之,语音对话装置100通过与服务器装置110通信,能够使服务器装置110侧承担一部分的处理。例如,由语音对话装置100进行处理负荷较小的处理,由服务器装置110进行处理负荷较大的处理,由此能够减轻语音对话装置100侧的处理负荷。另外,语音对话装置100的声音信息DB107中只存储信息量较小的信息,服务器装置110的声音信息DB113中存储信息量较大的信息,由此能够减少语音对话装置100侧的存储器消耗。另外,也可以利用从与服务器装置110连接的其它语音对话装置(未图示)取得的信息。
再者,图1和图4只是语音对话装置和语音对话系统的构成中的一例,在本实施方式中,可以采用图1和图4的任一者,也可以将图示以外的装置用于语音对话装置和语音对话系统。
另外,图2所示的控制部104的功能构成,是在图1和图4的构成例中均相同的功能构成。再者,图4的情况下,可以是,控制部104具备图2所示的各功能构成的一部分,控制部111具备其它功能构成。例如,可以设为,控制部104具备声音信息取得部201、判断部203和再现控制部206,控制部111具备分析部202。另外,例如也可以设为,声音信息取得部201、分析部202、判断部203和再现控制部206都由控制部111具备。
(语音对话系统的工作例)
以下,利用图5来说明实现语音对话系统的具体的各装置的工作的一例。图5是用于说明本实施方式中的语音对话系统的工作的顺序图。在此,示出通过图4所示的语音对话装置(电视)100和服务器装置110来实现语音对话系统的例子,但图4所示的语音对话系统的工作只是一例,并不限定本实施方式。
首先,在步骤S401中,语音对话装置100的语音取得部101将取得的声音信息(周围语音信息)输出到通信部102。在此,语音取得部101取得的声音信息优选是按每个声音到来方向分离出的声音信息。即,语音取得部101输出到通信部102的声音信息是按每个声音到来方向分离出的多个声音信息。
关于语音取得部101取得声音信息的正时(定时)、和语音取得部101将取得的声音信息输出到通信部102的正时并不特别限定。例如,语音对话装置100为电视机的情况下,语音取得部101可以在电视机的电源打开期间始终取得声音信息。另外,也可以设为,在声音信息之中检测到咒语(预定的关键字)时(刚检测到之后),语音取得部101将声音信息输出到通信部102。咒语(magic word)是指用于启动特定的设备和系统的关键字。例如在某个特定的系统中,在由麦克风拾取到“打开麦克风”这个关键字时启动系统。通过与该咒语连续地发出用于控制设备的语音指令,系统的麦克风被启动,依照对系统的语音指令的指示来控制特定的系统。
利用咒语来切换是否取得声音信息的情况下,语音取得部101包含语音识别部(未图示)和咒语检测部(未图示)。语音识别部将取得的声音信息转换为文本信息。咒语检测部从由语音识别部转换的文本信息之中检测预先存储的咒语。咒语检测部从文本信息之中检测出咒语的情况下,将声音信息输出到通信部102。
另外,也可以设为控制部104包含语音识别部(未图示)和咒语检测部(未图示)。该情况下,语音取得部101始终取得声音信息,控制部104对取得的声音信息进行语音识别处理和咒语检测处理,由此能够确定对系统讲话的时间区间。并且,控制部104可以对通信部102进行控制,以使得仅将确定出的时间区间的声音信息发送到服务器装置110。
接着,在步骤S402中,语音对话装置100的通信部102经由网络120将取得的声音信息发送到服务器装置110。在此,关于通信部102将声音信息发送到服务器装置110的正时不特别限定。
通信部102可以每当语音取得部101取得声音信息,随时将声音信息发送到服务器装置110。
在如上所述语音取得部101具备声音识别部和咒语检测部的情况下,语音取得部101取得的声音信息被推定为是在已经对系统讲话的时间区间中取得的。因此,该情况下,通信部102将由语音取得部101取得的所有声音信息发送到服务器装置110。因此,通信部102可以在从语音取得部101取得声音信息的正时发送声音信息。
另外,控制部104具备语音识别部和咒语检测部的情况下,控制部104确定讲话者对系统发出语音指令的时间区间。因此,通信部102仅在由控制部104确定出的时间区间将声音信息发送到服务器装置110。因此,通信部102可以在由控制部104确定出对系统发出语音指令的时间区间的正时,发送声音信息。
另外,语音取得部101可以将取得的声音信息存储于声音信息DB107。该情况下,通信部102可以在声音信息DB107存储了一定量的声音信息的正时或每隔一定时间的正时,将声音信息发送到服务器装置110。
此时,对于一个服务器装置110连接有多个语音对话装置100的情况下,通信部102可以将确定语音对话装置100的ID(识别信息)和声音信息一并发送。
并且,服务器装置110的控制部111经由通信部112从语音对话装置100取得声音信息。控制部111取得声音信息的处理相当于图3的步骤S301的处理。
接着,在步骤S403中,服务器装置110的控制部111对从语音对话装置100发送的声音信息进行分析。在此,控制部111将取得的每个声音到来方向的声音信息,分离为包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。控制部111分离声音信息的处理相当于图3的步骤S302的处理。
控制部111的分析部202至少包含将取得的声音信息按每个声源进行分离的声源分离部。声源分离部对取得的声音信息,根据频谱的信息或发音力度的特征量,进行声源分离,至少分离成包含发出语音指令的讲话者的讲话语音的第1语音信息和包含除了讲话语音以外的声音的第2语音信息。在此,在步骤S402的处理中取得的声音信息按每个声音到来方向(区域)被分离了的情况下,声源分离部按各区域分离声音信息。以下对声源分离的一例进行说明。
首先,声源分离部例如对取得的声音信息,按每个声音到来方向(区域),分离为人的语音和除了人以外的声音。关于声音到来方向的取得,如上所述语音取得部101为进行指向性拾音的麦克风(呈阵列状排列的多个麦克风)的情况下,语音取得部101一边按照多个角度区域的各自使指向性波束变化一边进行拾音,由此取得多个角度区域(声音到来方向)各自的声音信息。
另外,作为声音信息的其它分离方法,可以考虑根据一般的人的语音的频谱信息或特征量来进行分离的方法等。例如,作为从噪声环境中仅检测出语音信号的方法可举出谱减法。分析部202可以采用谱减法将周围语音信息分离为第1语音信息和第2语音信息。但将声音信息分离为人的语音和除了人的语音以外的声音的方法不限于谱减法。分析部202也可以预先掌握(存储)语音对话装置100的配置空间的环境声音信息,对取得的声音信息分类为环境声音信息和除了环境声音信息以外的语音信息,由此将声音信息分离为人的语音和除了人的语音以外的声音。
并且,分析部202通过对分离出的人的语音进行进一步详细分析,从而按每个声音到来方向(区域),将声音信息分离为对语音对话系统讲话的讲话者的语音、和除了讲话者以外的人讲话的语音。在此,作为将声音信息分离为对系统讲话的讲话者的语音和除了讲话者以外的人讲话的语音的方法,例如可以考虑:检测咒语(预定的关键字),取得讲出该咒语的讲话者的语音的特征量,将该讲话者确定为对系统讲话的讲话者,与具有其它语音特征量的声音信息分离的方法等。分析部202可以对取得的多个周围语音信息的每一个,判断是否包含预先存储的预定的关键字,在周围语音信息包含预定的关键字的情况下,判断为该周围语音信息是对语音对话系统的讲话语音。
另外,预先限制了能够对语音对话装置100发出语音指令的人的情况下,可以识别讲话者,将所限制的人的语音和除了所限制的人以外的人的语音分离。例如,如果在最开始登记了语音对话装置100的持有者的语音,且将该语音存储于语音对话装置100的声音信息DB107中,则分析部202通过将与存储的语音吻合的语音和不吻合的语音分类,而能够将对语音对话系统讲话的讲话者的语音和除了讲话者以外的人讲话的语音分离。
即,如果采用上述的方法将声音信息分类,则结果按各声音到来方向(区域),声音信息被分类为对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音、除了发出语音指令的讲话者以外的人讲话的语音、和周围噪声这3者。在此,对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音相当于上述对语音对话装置100(语音对话系统)讲话的讲话者的讲话语音。另外,将除了发出语音指令的讲话者以外的人讲话的语音与周围噪音合并了的声音,相当于上述的除了讲话语音以外的声音。再者,也可以设为,对语音对话装置100(语音对话系统)发出语音指令的讲话者的语音,相当于上述的对语音对话装置100(语音对话系统)讲话的讲话者的讲话语音,除了发出语音指令的讲话者以外的人讲话的语音,相当于上述的除了讲话语音以外的声音。
在此,记载了分析部202按每个声音到来方向(区域)进行声源分离而分离成发出语音指令的讲话者的讲话语音和除了讲话语音以外的语音,但也可以在该步骤S403的正时不按每个声音到来方向(区域)进行声源分离。但在后述的步骤S408中对于讲话者朝向指向性而再现应答语音的情况下,必须需要预先确定对系统讲话的讲话者的方向(位置或区域)。由此,优选在分离声音信息的阶段按各声音到来方向(区域)分析声音信息。
接着,在步骤S404中,服务器装置110的控制部111利用步骤S403的分析结果,将包含对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的第1语音信息的声级和包含除了讲话语音以外的声音的第2语音信息的声级进行比较。
在此,在对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音相当于上述的第1语音信息,将除了发出语音指令的讲话者以外的人讲话的语音与周围噪音合并了的语音相当于上述的第2语音信息的情况下,控制部111将对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的声级、和除了发出语音指令的讲话者以外的人讲话的语音的声级加上周围噪音的声级而得到的声级进行比较。
再者,在对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音相当于上述的第1语音信息,除了发出语音指令的讲话者以外的人讲话的语音相当于上述的第2语音信息的情况下,控制部111将对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的声级和除了发出语音指令的讲话者以外的人讲话的语音的声级进行比较,忽略周围噪音的声级。
再者,步骤S404的处理相当于图3的S303的处理。
接着,在步骤S405中,控制部111基于在步骤S404中比较的结果来决定再现方法。具体而言,在对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的声级高于除了讲话语音以外的语音的声级的情况下,控制部111将再现方法决定为第1再现方法(通常的再现方法),生成用于控制再现部105以使得采用第1再现方法再现应答语音的控制信息。在此,第1再现方法是通常的再现方法。通常的再现方法是不具有指向性地再现语音的再现方法。
另一方面,在对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的声级低于除了讲话语音以外的语音的声级的情况下,控制部111将再现方法决定为第2再现方法,生成用于控制再现部105以使得采用第2再现方法再现应答语音的控制信息。在此,第2再现方法是通过指向性再现进行再现的再现方法。再者,步骤S405的处理相当于图3的S304~S305的处理。
接着,在步骤S406中,控制部111作成对于语音指令的应答语音。首先,控制部111进行语音识别。在此,控制部111仅对在步骤S403中被确定为是对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音的到来方向(区域)的声音信息进行语音识别。再者,控制部111可以不在该阶段进行语音识别。例如,控制部111可以在步骤S403之后等,预先进行语音识别。或者也可以由语音对话装置100进行语音识别。
并且,控制部111基于语音识别的结果来决定应答语音的应答内容。在此,控制部111可以利用外部的对话服务器(未图示)选择应答内容。对话服务器中,备有大量的对话应答脚本(对话词典),能够通过与语音识别的结果进行对照而选择应答内容。例如,语音识别处理的结果是得到了“明天的天气如何?”这样的识别结果的情况下,控制部111决定“下雨”等应答内容。对于应答内容的决定方法不特别限定。
并且,控制部111根据选择的应答内容来进行由语音对话装置100再现的应答语音的语音合成。在此,控制部111进行语音合成,并且在步骤S405中决定为第2再现方法(指向性再现)的情况下,生成与表示再现应答语音的方向的再现部105(扬声器)的指向性参数相关的信息。即,控制部111生成用于对根据在步骤S403中确定出的对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音而确定的到来方向(区域)再现应答语音的指向性参数。
像这样,控制部111对分离出的第1语音信息进行语音识别,利用语音识别的结果生成应答语音。
接着,在步骤S407中,服务器装置110的控制部111将在步骤S405中决定的再现方法、和在步骤S406中作成的应答语音经由语音对话装置100的通信部102发送到再现部105。在此,在步骤S405中决定为第2再现方法(指向性再现)的情况下,控制部111将与表示再现应答语音的方向的再现部105(扬声器)的指向性参数相关的信息一并发送。即,控制部111发送用于对根据在步骤S403中确定的对语音对话装置100(语音对话系统)发出语音指令的讲话者的讲话语音而确定的到来方向(区域)再现应答语音的指向性参数。
接着,在步骤S408中,再现部105采用取得的再现方法再现应答语音。在此,在步骤S405中决定为第2再现方法(指向性再现)的情况下,再现部105也一并取得表示再现应答语音的方向的再现部105(扬声器)的指向性参数,因此通过该指向性参数将应答语音指向性再现。再现部105将所生成的应答语音采用第1再现方法和第2再现方法的某一方法再现。再现部105在采用第2再现方法再现应答语音时,向取得判断为是语音对话系统的讲话语音的周围语音信息的角度的方向,再现应答语音。
(效果)
以上,根据本实施方式,判断对语音对话装置100(语音对话系统)讲话的讲话者的讲话语音的声级是否高于除了讲话语音以外的声音的声级,基于判断结果,采用不具有指向性的通常的再现方法和对讲话者具有指向性的再现方法中的某一方法再现应答语音。由此,能够根据状况采用最佳的再现方法再现对话的应答语音。
以下,对语音对话装置100(语音对话系统)的利用场景进行更具体地说明。对于在语音对话装置100的周边存在多个人,只有一人对语音对话装置100提问的状况(以下也称为第1状况)进行说明。
图6是用于说明对语音对话装置讲话的讲话者的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下的应答语音的第1再现方法的示意图。
能够设想到的是:在对语音对话装置100讲话的讲话者10的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下,除了对语音对话装置100讲话的讲话者10以外的人也为了确认来自语音对话装置100的应答结果(应答语音)而不发出声音。即,该情况下,在语音对话装置100的周边存在的所有人都关心来自语音对话装置100的应答结果(应答语音)的可能性高。另外,由于周围的噪声级不高,因此能够推测为是不需要具有指向性地仅向对语音对话装置100讲话的讲话者10进行再现的状况。根据本实施方式,在对语音对话装置100讲话的讲话者10的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下,能够自动采用不具有指向性的通常的第1再现方法再现应答语音(图6)。
图7是用于说明对语音对话装置讲话的讲话者的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下的应答语音的第2再现方法的示意图。
能够设想到的是:在对语音对话装置100讲话的讲话者10的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,除了对语音对话装置100讲话的讲话者10以外的人(周围的人)正在发出声音(对语音对话装置100以外的人讲话或会话)。即,该情况下,除了对语音对话装置100讲话的讲话者10以外的人,不关心来自语音对话装置100的应答结果(应答语音)的可能性高。另外,由于周围的噪声级高,因此可以推测为是需要具有指向性地仅向对语音对话装置100讲话的讲话者10再现应答语音的状况。根据本实施方式,在对语音对话装置100讲话的讲话者10的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,能够自动采用对讲话者10具有指向性的第2再现方法再现应答语音(图7)。
像这样,在本实施方式中,能够根据状况采用最佳的再现方法将对于讲话语音的应答语音再现。另外,一般来说,在进行仅向预定的区域再现声音的区域再现时,语音对话装置100(语音对话系统)的运算量会增加,但与始终进行区域再现的情况相比,能够减少语音对话装置100(语音对话系统)的处理负荷。
以下,对本实施方式的变形例进行说明。
(变形例1)
本实施方式中,如上述的例子,对语音对话装置100(语音对话系统)的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下,采用通常的再现方法(不具有指向性的第1再现方法)再现应答语音,对语音对话装置100(语音对话系统)的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,采用区域再现方法(对讲话者具有指向性的第2再现方法)再现应答语音(以下也称为第1再现控制模式),但本公开并不限于此。例如,也可以根据状况采用与上述的例子不同的再现方法再现应答语音。
具体而言,可以设为:在上述记载的第1状况以外的状况中,对语音对话装置100(语音对话系统)的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下,采用区域再现方法(对讲话者具有指向性的第2再现方法)再现应答语音,对语音对话装置100(语音对话系统)的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,采用通常的再现方法(不具有指向性的第1再现方法)再现应答语音(以下也称为第2再现控制模式)。第1状况以外的状况是指例如除了对语音对话装置100(语音对话系统)讲话的人以外的人(例如婴幼儿等)正在语音对话装置100(语音对话系统)的周边睡觉的状况(以下也称为第2状况)。对语音对话装置100(语音对话系统)的讲话语音的声级高于除了讲话语音以外的声音的声级的情况,是除了对语音对话装置100(语音对话系统)讲话的人以外的人(例如婴幼儿等)没有发出声响的状况,因此除了讲话者以外的人例如有可能正在睡觉。
因此,优选在第2状况中,对语音对话装置100(语音对话系统)的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下,采用对讲话者具有指向性的第2再现方法再现应答语音,对语音对话装置100(语音对话系统)的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,采用不具有指向性的第1再现方法再现应答语音。另外,语音对话装置100(语音对话系统)可以在像这样根据状况变更再现控制时,受理由用户进行的目前的状况的选择。
再者,可以根据由图像取得部106取得的图像进行图像识别,对婴幼儿进行检测,由此来判定除了对语音对话装置100(语音对话系统)讲话的讲话者以外的人是否为婴幼儿。
(变形例2)
另外,控制部104可以具备根据由分析部202取得的环境音来推测目前状况的状况推测部(未图示)。在此,状况推测部可以是例如根据声音信息来识别讲话者的讲话者识别部。由此,能够根据取得的语音来判断系统的周围有什么样的人。例如通过讲话者识别,判断为如上述的第2状况那样在语音对话装置100(语音对话系统)的周边存在婴幼儿的情况下,可以采用第2再现控制模式进行控制。
即,讲话者识别部可以根据所取得的周围语音信息来识别周围的人。并且,判断部203可以基于将第1语音信息的声级和第2语音信息的声级比较的结果、以及对周围的人进行识别的结果,来切换采用第1再现方法和第2再现方法中的哪一个方法进行再现。
例如可以设置成:对周围的人进行识别的结果是周围存在婴幼儿时,判断部203判断为对语音对话装置100(语音对话系统)的讲话语音的声级高于除了讲话语音以外的声音的声级的情况下,决定为对讲话者具有指向性的第2再现方法,判断为对语音对话装置100(语音对话系统)的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,决定为不具有指向性的第1再现方法。
再者,讲话者识别部可以根据由图像取得部106取得的图像来识别周围的人。
(变形例3)
声音信息DB107存储有过去的语音取得状况的情况下,判断部203可以不仅仅利用取得的声音信息,也利用存储于声音信息DB的语音取得状况来判断再现方法。具体而言,在声音信息DB107中,至少将在过去取得的声音信息与在取得该声音信息时判断出的再现方法相关联地表格化。由此,判断部203在取得的语音信息(第1语音信息)与存储于声音信息DB107的语音信息相类似的情况下,不必进行步骤S303所示的比较处理,决定为与过去决定的再现方法相同的再现方法即可。
即,判断部203可以利用将过去取得的第1语音信息与过去再现第1语音信息时所选择的第1再现方法和第2再现方法中的某一方法相关联地存储的表格,来选择再现应答语音的再现方法。
另外,也可以通过一并利用步骤S303所示的比较处理、和存储于声音信息DB107的将过去取得的声音信息与再现方法相对应的表格信息,来确定再现方法。另外,判断部203可以在步骤S303所示的比较处理的结果是对语音对话装置100(语音对话系统)的讲话语音的声级与除了讲话语音以外的声音的声级不存在预定值以上的差异的情况下,利用声音信息DB107来决定再现方法。
(变形例4)
本实施方式的变形例4中,识别讲话者的信息与第1再现方法和第2再现方法的某一方法相对应地预先存储于语音信息数据库。并且,所取得的周围语音信息被分离为第1语音信息和第2语音信息,对讲话者进行识别。语音信息数据库中存在与识别出的讲话者相关联的再现方法的情况下,采用存储于语音信息数据库的再现方法再现应答语音。
分析部202具备状况推测部(特别是讲话者识别部),在利用语音对话装置100(语音对话系统)的一个或多个讲话者的语音的特征与再现方法相关联地预先保存于声音信息DB107中的情况下,也能够不进行步骤S303所示的比较处理地决定再现方法。由此,例如在父亲对语音对话装置100(语音对话系统)讲话的情况下,无论是任何状况都能够采用对作为讲话者的父亲具有指向性的第2再现方法再现应答语音。即,能够根据个人的喜好而采用最佳的再现方法再现应答语音。
在此,对本实施方式的变形例4中的语音对话装置100进行说明。
再者,利用图1和图2对本实施方式的变形例4中的语音对话装置100的构成进行说明。
分析部202具备讲话者识别部(未图示)。讲话者识别部对发出讲话语音的讲话者进行识别。
声音信息DB107将对讲话者进行识别的信息与第1再现方法和第2再现方法的某一方法相关联地存储。对讲话者进行识别的信息例如是讲话者的姓名、讲话者的昵称或讲话者的ID号码。另外,对讲话者进行识别的信息也可以是表示讲话者讲话的讲话语音的语音信息,还可以是表示讲话者讲话的讲话语音的语音信息的特征量。
另外,语音对话装置100可以受理由用户输入对讲话者进行识别的信息和再现方法。声音信息DB107可以预先将由用户输入的对讲话者进行识别的信息与第1再现方法和第2再现方法中的某一方法相关联地存储。
再现控制部206从声音信息DB107来选择与识别出的讲话者相关联的第1再现方法和第2再现方法的某一方法。再现控制部206控制再现部105以使得采用所选择的第1再现方法和第2再现方法中的某一方法再现应答语音。
图8是表示本实施方式的变形例4中的语音对话装置的工作的一例的流程图。
步骤S1201和步骤S1202的处理与图3所示的步骤S301和步骤S302的处理相同,因此省略说明。
接着,在步骤S1203中,讲话者识别部对发出讲话语音的讲话者进行识别。
然后,在步骤S1204中,再现控制部206从声音信息DB107来选择与识别出的讲话者相关联的第1再现方法和第2再现方法的某一方法。
接着,在步骤S1205中,再现控制部206控制再现部105以使得采用所选择的第1再现方法和第2再现方法中的某一方法再现应答语音。即,第1再现方法与识别出的讲话者相关联的情况下,通常再现控制部204控制再现部105以使得采用不具有指向性的第1再现方法再现应答语音。另外,第2再现方法与识别出的讲话者相关联的情况下,区域再现控制部205控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。
再者,上述的变形例4中,对讲话者进行识别的信息与第1再现方法和第2再现方法中的某一方法相关联地预先存储于声音信息DB107中。但是,声音信息DB107不一定将对讲话者进行识别的信息与第1再现方法和第2再现方法中的某一方法相关联地存储。因此,可以设为在步骤S1203的处理之后,判断部203参照声音信息DB107来判断再现方法是否与识别出的讲话者相关联。再现方法与识别出的讲话者相关联的情况下,再现控制部206从声音信息DB107选择与所识别的讲话者相关联的第1再现方法和第2再现方法中的某一方法。
另一方面,再现方法不与识别出的讲话者相关联的情况下,判断部203可以判断第1语音信息的声级是否高于第2语音信息的声级。并且,在判断为第1语音信息的声级高于第2语音信息的声级的情况下,通常再现控制部204控制再现部105以使得采用第1再现方法再现应答语音。另外,在判断为第1语音信息的声级低于第2语音信息的声级的情况下,区域再现控制部205控制再现部105以使得采用第2再现方法再现应答语音。然后,再现控制部206可以将对讲话者进行识别的信息与再现了应答语音的第1再现方法和第2再现方法中的某一方法相关联地存储于声音信息DB107中。
另外可以设置成:判断部203,在步骤S303所示的比较处理中,仅在对语音对话装置100(语音对话系统)的讲话语音的声级与除了讲话语音以外的声音的声级的差值的绝对值为预定的阈值以上的情况下,判断对语音对话装置100(语音对话系统)的讲话语音的声级是否高于除了讲话语音以外的声音的声级。另外可以设置成:判断部203在差值的绝对值小于预定的阈值的情况下,从作为每个用户的初始设定而保存于声音信息DB107的再现方法之中,决定采用与由讲话者识别部识别出的用户相对应的再现方法再现应答语音。由此,能够抑制再现方法频繁地变化。
(变形例5)
判断部203可以利用图像取得部106取得的图像信息来判断再现方法。例如可以设为,分析部202具备图像识别部(未图示),图像识别部对关心语音对话装置100(语音对话系统)的人的数量进行识别。由此,判断部203能够不进行步骤S303所示的比较处理,而根据由图像识别部得到的识别结果来决定再现方法。
例如,在被判断为关心语音对话装置100(语音对话系统)的人的数量为阈值以上的情况下,判断部203可以将再现方法决定为通常的再现方法(第1再现方法)。另外,在被判断为关心语音对话装置100(语音对话系统)的人的数量少于阈值的情况下,判断部203可以将再现方法决定为区域再现方法(第2再现方法)。根据取得的图像来识别是否为关心语音对话装置100(语音对话系统)的人的方法,采用根据现有的面部识别处理或视线识别处理的结果来进行判断的方法即可。例如,判断部203在面部识别处理的结果是判断为朝向语音对话装置100(语音对话系统)的方向的情况下,可以判断为关心语音对话装置100(语音对话系统)。另外,例如判断部203在视线识别处理的结果是判断为注视语音对话装置100(语音对话系统)的方向的情况下,可以判断为关心语音对话装置100(语音对话系统)。
另外,判断部203可以在步骤S303的比较处理之后利用图像识别部的结果来决定再现方法。由此,并用声级的比较和图像处理的结果,从而能够更高精度地推定状况,选择适当的再现方法。例如,在对语音对话装置100(语音对话系统)的讲话语音的声级低于除了讲话语音以外的声音的声级的情况下,判断部203可以进一步利用取得的图像,取得对语音对话装置100(语音对话系统)感兴趣的人的位置,采用对该感兴趣的人的位置具有指向性的再现方法再现应答语音。
该情况下,图像取得部106取得语音对话装置100的周围的图像。分析部202根据所取得的图像来检测注视语音对话装置100(语音对话系统)的人。区域再现控制部205控制再现部105以使得在采用第2再现方法再现应答语音时,向检测出的人再现应答语音。再现部105在采用第2再现方法再现应答语音时,向检测出的人再现应答语音。
(变形例6)
可以设为语音对话装置100不具备语音取得部101,另外于语音对话装置100的拾音装置具备语音取得部101。例如,语音对话装置100为电视机的情况下,用于远程控制该电视机的遥控器具备语音取得部101。通过语音对话装置100(或服务器装置110)与拾音装置(遥控器)采用预定的方法通信,来实现本实施方式的再现控制方法。
再者,语音对话装置100可以具备检测拾音装置(遥控器)的位置的检测部。由此,不需要进行步骤S403中的声音到来方向的检测。即,在步骤S305中,再现部105在对声音到来方向进行区域再现时,向遥控器的位置再现应答语音即可。该情况下,判断部203也可以根据对语音对话装置100(语音对话系统)讲话的讲话者是否一边按着拾音装置(遥控器)所具备的按钮(物理按钮或显示在触摸面板的虚拟按钮)一边说话,来决定再现方法。例如,可以仅在讲话者一边按着按钮一边讲话的情况下,判断部203进行步骤S305的区域再现。由此,能够不需要进行步骤S303的比较处理,采用更能反映用户的意图的再现方法再现应答语音。
在此,对本实施方式的变形例6中的语音对话系统进行说明。语音对话系统具备拾音装置和语音对话装置100。
拾音装置由讲话者持有,具备语音取得部101。语音取得部101拾取对语音对话系统所讲的讲话语音。拾音装置将表示拾取到的讲话语音的语音信息发送到语音对话装置100。再者,拾音装置具备按钮,将表示是否在按下了按钮的状态下拾取到讲话语音的按钮按下信息(预定的指示信号)附加于语音信息进行发送。
图像取得部106取得语音对话装置100的周围的图像。分析部202具备图像识别部(未图示)。图像识别部根据所取得的图像来确定对拾音装置讲话的讲话者的位置。
判断部203判断是否在由讲话者对拾音装置输入了预定的指示信号的状态下拾取到讲话语音。
通常再现控制部204在判断为不是在对拾音装置输入了预定的指示信号的状态下接受到讲话语音的情况下,控制再现部105以使得采用第1再现方法再现应答语音。
区域再现控制部205在判断为在对拾音装置输入了预定的指示信号的状态下拾取到讲话语音的情况下,控制再现部105以使得采用第2再现方法再现应答语音。
图9是表示本实施方式的变形例6中的语音对话系统的工作的一例的流程图。
首先,在步骤S1001中,拾音装置的语音取得部101拾取对语音对话系统所讲的讲话语音。再者,拾音装置将表示拾取到的讲话语音的语音信息发送到语音对话装置100。语音对话装置100的通信部102接收由拾音装置发送的语音信息。
接着,在步骤S1002中,图像取得部106取得语音对话装置100的周围的图像。
然后,在步骤S1003中,图像识别部根据所取得的图像来确定对拾音装置讲话的讲话者的位置。图像识别部例如可以通过图像识别处理来检测拾音装置,将检测出的拾音装置的位置确定为讲话者的位置。
接着,在步骤S1004中,判断部203判断是否在由讲话者按下设置于拾音装置的按钮的状态下拾取到讲话语音。如上所述,语音信息中附加有表示是否在按下按钮的状态下拾取到讲话语音的按钮按下信息。因此,判断部203在附加于语音信息的按钮按下信息表示在按下按钮的状态下拾取到讲话语音的情况下,判断为在按下按钮的状态下拾取到讲话语音,在附加于语音信息的按钮按下信息表示在没有按下按钮的状态下拾取到讲话语音的情况下,判断为在没有按下按钮的状态下拾取到讲话语音。
在此,判断为在按下按钮的状态下拾取到讲话语音的情况下(步骤S1004中为是),在步骤S1005中,区域再现控制部205控制再现部105以使得采用第2再现方法再现应答语音。
另一方面,判断为不是在按下按钮的状态下拾取到讲话语音的情况下、即判断为在没有按下按钮的状态下拾取到讲话语音的情况下(步骤S1004中为否),在步骤S1006中,通常再现控制部204控制再现部105以使得采用第1再现方法再现应答语音。
再者,作为拾音装置,除了遥控器以外,可以考虑例如语音对话系统专用的麦克风、利用语音对话系统的用户持有的便携终端(智能手机或平板电脑等)、可穿戴式终端(人体穿戴型终端、智能手表或智能手环等)、或者设置于室内的天花板或墙壁的拾音麦克风等。在拾音装置是利用语音对话系统的用户持有的便携终端(智能手机或平板电脑等)的情况下,便携终端具备取得用户的讲话语音的功能,因此能够从日常生活中取得用户的讲话语音。该情况下,能够容易地构建变形例4中记载的声音信息DB107。该情况下,可以设为拾音装置不具备声音信息DB107,语音对话装置100或服务器装置110具备声音信息DB107。
(变形例7)
本实施方式的变形例7中,在多个人注视着语音对话装置100(语音对话系统)的情况下,采用不具有指向性的第1再现方法再现应答语音,在不是多个人注视着语音对话装置100(语音对话系统)的情况下、即注视着语音对话装置100(语音对话系统)的人只有讲话者的情况下,采用仅对讲话者具有指向性的第2再现方法再现应答语音。
再者,利用图1和图2来说明本实施方式的变形例7中的语音对话装置100的构成。
图像取得部106取得语音对话装置100的周围的图像。
分析部202具备图像识别部(未图示)。图像识别部根据所取得的图像,检测语音对话装置100的周围的人的脸的朝向和视线的朝向,检测注视着语音对话装置100的人的数量。
判断部203判断是否为多个人注视着语音对话装置100。
通常再现控制部204在由判断部203判断为多个人注视着语音对话装置100的情况下,控制再现部105以使得采用不具有指向性的第1再现方法再现应答语音。
区域再现控制部205在由判断部203判断为不是多个人注视着语音对话装置100的情况下,控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。
图10是表示本实施方式的变形例7中的语音对话装置的工作的一例的流程图。
首先,在步骤S801中,图像取得部106取得语音对话装置100的周围的图像。
接着,在步骤S802中,图像识别部根据由图像取得部106取得的图像,检测语音对话装置100的周围的人的脸的朝向和视线的朝向,检测注视着语音对话装置100的人的数量。图像识别部在脸的朝向和视线的朝向对向语音对话装置100(图像取得部106)的方向的情况下,判断为注视着语音对话装置100。再者,图像识别部也可以检测脸的朝向和视线的朝向的任一者。
接着,在步骤S803中,判断部203判断是否为多个人注视着语音对话装置100。在此,判断为多个人注视着语音对话装置100的情况下(在步骤S803中为是),在步骤S804中,通常再现控制部204控制再现部105以使得采用第1再现方法再现应答语音。
另一方面,判断为不是多个人注视着语音对话装置100的情况下(步骤S803中为否),在步骤S805中,区域再现控制部205控制再现部105以使得采用第2再现方法再现应答语音。
再者,本实施方式的变形例7中,可以不进行将对语音对话装置100(语音对话系统)的讲话语音的声级和除了讲话语音以外的声音的声级进行比较的处理。
另外,在本实施方式的变形例7中也需要作成应答语音,因此语音对话装置100(服务器装置110)进行取得周围语音信息的处理(图3的步骤S301)、将周围语音信息分离为第1语音信息和第2语音信息的处理(图3的步骤S302)、以及作成应答语音的处理(图5的步骤S406)。
(变形例8)
本实施方式的变形例7中,根据周围语音信息来检测语音对话装置100(语音对话系统)的周围的人的数量。在语音对话装置100(语音对话系统)的周围存在多个人,且多个人注视着语音对话装置100(语音对话系统)的情况下,采用不具有指向性的第1再现方法再现应答语音。另外,在语音对话装置100(语音对话系统)的周围不存在多个人的情况下、即语音对话装置100(语音对话系统)的周围只有讲话者的情况下,采用仅对讲话者具有指向性的第2再现方法再现应答语音。并且,在不是多个人注视着语音对话装置100(语音对话系统)的情况下、即注视着语音对话装置100(语音对话系统)的人只有讲话者的情况下,采用仅对讲话者具有指向性的第2再现方法再现应答语音。
图像取得部106取得语音对话装置100的周围的图像。
分析部202具备图像识别部(未图示)。图像识别部根据所取得的图像,检测语音对话装置100的周围的人的脸的朝向和视线的朝向,检测注视着语音对话装置100的人的数量。
分析部202根据由声音信息取得部201取得的周围语音信息来检测在语音对话装置100的周围正在讲话的人的数量。分析部202从周围语音信息中提取表示人讲话的语音的语音信息,根据提取的语音信息的特征量的差异来检测讲话的人的数量。
判断部203判断在语音对话装置100的周围是否存在多个人。判断部203在由分析部202检测出的正在讲话的人的数量为2人以上的情况下,判断为在语音对话装置100的周围存在多个人,在由分析部202检测出的正在讲话的人的数量为1人的情况下,判断为在语音对话装置100的周围不存在多个人。
判断部203在判断为在语音对话装置100的周围存在多个人的情况下,判断多个人是否注视着语音对话装置100。
通常再现控制部204在由判断部203判断为多个人注视着语音对话装置100的情况下,控制再现部105以使得采用不具有指向性的第1再现方法再现应答语音。
区域再现控制部205在由判断部203判断为在语音对话装置100的周围不存在多个人的情况下,控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。另外,区域再现控制部205在由判断部203判断为不是多个人注视着语音对话装置100的情况下,控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。
图11是表示本实施方式的变形例8中的语音对话装置的工作的一例的流程图。
首先,在步骤S901中,声音信息取得部201取得由语音取得部101取得的声音信息(周围语音信息)。再者,步骤S901的处理与图3所示的步骤S301的处理相同。
接着,在步骤902中,分析部202根据由声音信息取得部201取得的周围语音信息来检测在语音对话装置100的周围正在讲话的人的数量。
然后,在步骤S903中,判断部203判断是否在语音对话装置100的周围存在多个人。在此,判断为在语音对话装置100的周围存在多个人的情况下(步骤S903中为是),在步骤S904中,图像取得部106取得语音对话装置100的周围的图像。
接着,在步骤S905中,图像识别部根据由图像取得部106取得的图像,检测语音对话装置100的周围的人的脸的朝向和视线的朝向,检测注视着语音对话装置100的人的数量。图像识别部在脸的朝向和视线的朝向朝着语音对话装置100(图像取得部106)的方向的情况下,判断为注视着语音对话装置100。再者,图像识别部可以检测脸的朝向和视线的朝向的任一者。
然后,在步骤S906中,判断部203判断是否为多个人注视着语音对话装置100。在此,判断为多个人注视着语音对话装置100的情况下(步骤S906中为是),在步骤S907中,通常再现控制部204控制再现部105以使得采用第1再现方法再现应答语音。
另一方面,判断在语音对话装置100的周围不存在多个人的情况下(步骤S903中为否)、或判断为不是多个人注视着语音对话装置100的情况下(步骤S906中为否),在步骤S908中,区域再现控制部205控制再现部105以使得采用第2再现方法再现应答语音。
再者,本实施方式的变形例8中,可以不进行将对语音对话装置100(语音对话系统)的讲话语音的声级和除了讲话语音以外的声音的声级进行比较的处理。
另外,在本实施方式的变形例8中也需要作成应答语音,因此语音对话装置100(服务器装置110)进行将周围语音信息分离为第1语音信息和第2语音信息的处理(图3的步骤S302)以及作成应答语音的处理(图5的步骤S406)。
(变形例9)
本实施方式的变形例9中,预先将讲话者的位置与第1再现方法和第2再现方法中的某一方法相关联地存储于语音信息数据库。并且,所取得的周围语音信息被分离为第1语音信息和第2语音信息,确定讲话者的位置。与所确定的讲话者的位置相关联的再现方法存在于语音信息数据库的情况下,采用存储于语音信息数据库的再现方法再现应答语音。
再者,利用图1和图2来说明本实施方式的变形例9中的语音对话装置100的构成。
声音信息取得部201取得以每预定的角度具有指向性的多个周围语音信息。再者,语音取得部101由包含多个麦克风的阵列麦克风系统构成,从多个麦克风取得以每预定的角度具有指向性的多个周围语音信息。
分析部202通过对于由声音信息取得部201取得的多个周围语音信息,判断是否为对语音对话装置100的讲话语音,而将多个周围语音信息分离为第1语音信息和第2语音信息。
分析部202基于取得了包含第1语音信息的周围语音信息的麦克风的指向性来确定讲话者的位置。再者,讲话者的位置也可以根据使用麦克风的房间的混响时间来计算。再者,混响时间是通过预先测定设置麦克风的房间的混响时间而提供的。
声音信息DB107将讲话者的位置与第1再现方法和第2再现方法中的某一方法相关联地存储。
判断部203参照声音信息DB107来判断由分析部202确定出的讲话者的位置是否关联了第1再现方法和第2再现方法中的某一方法。
再现控制部206在判断为所确定的讲话者的位置关联了第1再现方法和第2再现方法中的某一方法的情况下,控制再现部105以使得采用与所确定的讲话者的位置相关联的第1再现方法和第2再现方法中的某一方法再现应答语音。此时,通常再现控制部204在第1再现方法与所确定的讲话者的位置相关联的情况下,控制再现部105以使得采用不具有指向性的第1再现方法再现应答语音。另外,区域再现控制部205在第2再现方法与所确定的讲话者的位置相关联的情况下,控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。
另外,判断部203在判断为第1再现方法和第2再现方法中的某一方法都不与所确定的讲话者的位置相关联的情况下,将第1语音信息的声级和第2语音信息的声级进行比较。
通常再现控制部204在由判断部203判断为第1语音信息的声级高于第2语音信息的声级的情况下,采用第1再现方法再现应答语音。
区域再现控制部205在由判断部203判断为第1语音信息的声级低于第2语音信息的声级的情况下,采用第2再现方法再现应答语音。
再现控制部206将所确定的讲话者的位置与再现了应答语音的第1再现方法和第2再现方法中的某一方法相关联地存储于声音信息DB107。
图12是表示本实施方式的变形例9中的语音对话装置的工作的一例的流程图。
步骤S1101和步骤S1102的处理与图3所示的步骤S301和步骤S302的处理相同,因此省略说明。
接着,在步骤S1103中,分析部202基于取得了包含第1语音信息的周围语音信息的麦克风的指向性来确定讲话者的位置。再者,由于语音取得部101是由包含多个麦克风的阵列麦克风系统构成的,因此分析部202能够确定讲话语音的到来方向,能够根据讲话语音的到来方向确定讲话者的位置。再者,分析部202可以不仅确定讲话者的位置(讲话者所在的方向),还确定讲话者所在的区域。讲话者所在的区域例如是讲话者伸手够到的范围。
然后,在步骤S1104中,判断部203参照声音信息DB107来判断由分析部202确定出的讲话者的位置是否关联有再现方法。在此,判断为所确定的讲话者的位置关联有再现方法的情况下(步骤S1104中为是),在步骤S1105中,再现控制部206控制再现部105以使得采用与所确定的讲话者的位置相关联的第1再现方法和第2再现方法中的某一方法再现应答语音。此时,第1再现方法与所确定的讲话者的位置相关联的情况下,通常再现控制部204控制再现部105以使得采用不具有指向性的第1再现方法再现应答语音。另外,第2再现方法与所确定的讲话者的位置相关联的情况下,区域再现控制部205控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。
另一方面,判断为所确定的讲话者的位置没有关联再现方法的情况下(步骤S1104中为否),在步骤S1106中,判断部203判断第1语音信息的声级是否高于第2语音信息的声级。
再者,步骤S1106~步骤S1108的处理与图3所示的步骤S303~步骤S305的处理相同,因此省略说明。
接着,在步骤S1109中,再现控制部206将所确定的讲话者的位置与再现了应答语音的第1再现方法和第2再现方法中的某一方法相关联地存储于声音信息DB107。
(变形例10)
本实施方式的变形例10中,存储部预先存储有预定的关键字。并且,所取得的周围语音信息被分离为第1语音信息和第2语音信息,第1语音信息包含预定的关键字的情况下,采用第1再现方法再现应答语音。
再者,利用图1和图2来说明本实施方式的变形例10中的语音对话装置100的构成。
分析部202对分离出的第1语音信息的讲话内容进行分析。分析部202将分离出的第1语音信息转换为文本信息。
判断部203判断由分析部202转换为了文本信息的第1语音信息是否包含预先存储于声音信息DB107的预定的关键字。声音信息DB107预先存储预定的关键字。预定的关键字例如是预先决定了采用第1再现方法再现应答语音的讲话内容。
通常再现控制部204在判断为第1语音信息包含预定的关键字的情况下,控制再现部105以使得采用第1再现方法再现应答语音。
区域再现控制部205在判断为第1语音信息不含预定的关键字的情况下,控制再现部105以使得采用第2再现方法再现应答语音。
图13是表示本实施方式的变形例10中的语音对话装置的工作的一例的流程图。
步骤S1301和步骤S1302的处理与图3所示的步骤S301和步骤S302的处理相同,因此省略说明。
接着,在步骤S1303中,判断部203判断第1语音信息是否包含预先存储于声音信息DB107的预定的关键字。再者,第1语音信息由分析部202转换为文本信息。
在此,判断为第1语音信息包含预定的关键字的情况下(步骤S1303中为是),在步骤S1304中,通常再现控制部204控制再现部105以使得采用不具有指向性的第1再现方法再现应答语音。
另一方面,判断为第1语音信息不含预定的关键字的情况下(步骤S1303中为否),在步骤S1305中,区域再现控制部205控制再现部105以使得采用仅对讲话者具有指向性的第2再现方法再现应答语音。
再者,本实施方式中,判断为第1语音信息包含预定的关键字的情况下,采用第1再现方法再现应答语音,判断为第1语音信息不含预定的关键字的情况下,采用第2再现方法再现应答语音,但本公开不特别限定于此。也可以设置成:判断为第1语音信息包含预定的关键字的情况下,采用第2再现方法再现应答语音,判断为第1语音信息不含预定的关键字的情况下,采用第1再现方法再现应答语音。
(变形例11)
本实施方式的变形例11中,连续取得相同的讲话内容的讲话语音的情况下,不再现应答语音。
再者,利用图1和图2来说明本实施方式的变形例11中的语音对话装置100的构成。
分析部202对分离出的第1语音信息的讲话内容进行分析。
判断部203判断由分析部202分析出的讲话内容是否与存储于声音信息DB107中的上一次取得的第1语音信息的讲话内容相同。
再现控制部206在判断为分析出的讲话内容与上一次的讲话内容相同的情况下,中止应答语音的再现。
判断部203在判断为分析出的讲话内容与上一次的讲话内容不同的情况下,将第1语音信息的声级和第2语音信息的声级进行比较。再现控制部206根据比较的结果,采用第1再现方法和第2再现方法中的某一方法再现应答语音。
再现控制部206将本次的第1语音信息的讲话内容存储于声音信息DB107。
图14是表示本实施方式的变形例11中的语音对话装置的工作的一例的流程图。
步骤S1401和步骤S1402的处理与图3所示的步骤S301和步骤S302的处理相同,因此省略说明。
接着,在步骤S1403中,判断部203判断第1语音信息的讲话内容是否与存储于声音信息DB107中的上一次的第1语音信息的讲话内容相同。再者,由分析部202对第1语音信息的讲话内容进行分析。讲话内容相同不仅包括讲话者讲话的讲话语音的词句完全相同的情况,也包括讲话者讲话的讲话语音的意思相同的情况。
在此,判断为第1语音信息的讲话内容与上一次的第1语音信息的讲话内容相同的情况下(步骤S1403中为是),在步骤S1404中,再现控制部206中止应答语音的再现。
另一方面,判断为第1语音信息的讲话内容与上一次的第1语音信息的讲话内容不同的情况下(步骤S1403中为否),在步骤S1405中,判断部203判断第1语音信息的声级是否高于第2语音信息的声级。
再者,步骤S1405~步骤S1407的处理与图3所示的步骤S303~步骤S305的处理相同,因此省略说明。
接着,在步骤S1408中,再现控制部206将本次的第1语音信息的讲话内容存储于声音信息DB107。
再者,本实施方式的变形例11中,可以在步骤S1402与步骤S1403之间,判断从取得上一次的第1语音信息后是否经过了预定时间。可以设置成:判断为从取得上一次的第1语音信息后经过了预定时间的情况下,移至步骤S1405的处理,判断为从取得上一次的第1语音信息后没有经过预定时间的情况下,移至步骤S1403的处理。由此,能够在短时间内连续输入了相同的讲话内容的讲话语音的情况下,中止对于后续的讲话语音的应答语音的再现。
(变形例12)
本实施方式的变形例12中,将讲话者在通常会话中讲话的语音的声级作为通常声级存储于声级数据库,在包含发出对语音对话装置100的指示的讲话语音的第1语音信息的声级高于存储于声级数据库的通常声级的平均值的情况下,采用第1再现方法再现应答语音,第1语音信息的声级低于通常声级的平均值的情况下,采用第2再现方法再现应答语音。
再者,利用图1和图2来说明本实施方式的变形例11中的语音对话装置100的构成。
分析部202将分离出的第2语音信息中所含的人的语音的声级作为通常声级存储于声音信息DB107。即,分析部202不将发出对语音对话装置100的指示的讲话语音的声级作为通常声级存储于声音信息DB107,而是将通常会话中讲话者讲话的语音的声级作为通常声级存储于声音信息DB107。
声音信息DB107存储通常声级。再者,声音信息DB107可以存储从分析部202输出的所有通常声级。另外,声音信息DB107也可以计算从分析部202输出的通常声级和已经存储的通常声级的平均值,仅存储算出的平均值。
判断部203判断分离出的第1语音信息的声级是否高于声音信息DB107中存储的通常声级的平均值。
通常再现控制部204在判断为第1语音信息的声级高于通常声级的平均值的情况下,控制再现部105以使得采用第1再现方法再现应答语音。
区域再现控制部205在判断为第1语音信息的声级低于通常声级的平均值的情况下,控制再现部105以使得采用第2再现方法再现应答语音。
图15是表示本实施方式的变形例12中的语音对话装置的工作的一例的流程图。
步骤S1501和步骤S1502的处理与图3所示的步骤S301和步骤S302的处理相同,因此省略说明。
接着,在步骤S1503中,分析部202将分离出的第2语音信息中所含的人的语音的声级作为通常声级存储于声音信息DB107。
然后,在步骤S1504中,判断部203判断分离出的第1语音信息的声级是否高于存储于声音信息DB107中的通常声级的平均值。
在此,判断为第1语音信息的声级高于通常声级的平均值的情况下(步骤S1504中为是),在步骤S1505中,通常再现控制部204控制再现部105以使得采用第1再现方法再现应答语音。
另一方面,判断为第1语音信息的声级低于通常声级的平均值的情况下(步骤S1504中为否),区域再现控制部205控制再现部105以使得采用第2再现方法再现应答语音。
再者,判断为第1语音信息的声级与通常声级的平均值相同的情况下,既可以由通常再现控制部204采用第1再现方法再现应答语音,也可以由区域再现控制部205采用第2再现方法再现应答语音。
另外,也可以设置成:判断为第1语音信息的声级高于通常声级的平均值的情况下,采用第2再现方法再现应答语音,判断为第1语音信息的声级低于通常声级的平均值的情况下,采用第1再现方法再现应答语音。
另外,本实施方式中,再现部105采用第1再现方法或第2再现方法再现应答语音,但本公开并不特别限定于此,也可以设为:再现部105采用第1再现方法和第2再现方法中的某一方法,将被讲话语音控制的控制对象设备再现的语音再现。例如可以设为:语音对话装置100设置于电视机,在讲话者对语音对话装置100发出提高电视机的音量的指示的情况下,语音对话装置100根据将第1语音信息的声级和第2语音信息的声级进行比较的结果,采用第1再现方法和第2再现方法中的某一方法将电视机再现的语音再现。
产业可利用性
本公开涉及的语音再现方法、语音对话装置和语音对话程序,能够采用与讲话者的周围的状况相应的再现方法再现应答语音,作为将对于讲话语音的应答语音再现的语音再现方法、语音对话装置是有用的。

Claims (19)

1.一种语音再现方法,是语音对话系统中的语音再现方法,
取得周围语音信息,所述周围语音信息包含对所述语音对话系统讲话的讲话语音、表示所述讲话语音的讲话者的周围的声音,
将所述周围语音信息分离为包含所述讲话语音的第1语音信息和包含除了所述讲话语音以外的声音的第2语音信息,
将所述第1语音信息的声级和所述第2语音信息的声级进行比较,
根据比较的结果,采用第1再现方法、和再现的语音的指向性与所述第1再现方法不同的第2再现方法中的某一方,再现对所述讲话语音的应答语音。
2.根据权利要求1所述的语音再现方法,所述第1再现方法是不具有指向性的再现方法,
所述第2再现方法是对所述讲话者具有指向性的再现方法,
在所述第1语音信息的声级高于所述第2语音信息的声级的情况下,采用所述第1再现方法再现所述应答语音,
在所述第1语音信息的声级低于所述第2语音信息的声级的情况下,采用所述第2再现方法再现所述应答语音。
3.根据权利要求1所述的语音再现方法,对所述第1语音信息进行语音识别,
使用所述语音识别的结果来生成应答语音,
采用所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音。
4.根据权利要求1所述的语音再现方法,所述周围语音信息包含从含有多个麦克风的阵列麦克风系统取得的、在每个预定的角度具有指向性的多个周围语音信息,
通过判断所述多个周围语音信息的各自是否为对所述语音对话系统的所述讲话语音,而将所述周围语音信息分离为所述第1语音信息和所述第2语音信息。
5.根据权利要求4所述的语音再现方法,在采用所述第2再现方法再现所述应答语音时,向所述多个周围语音信息中的、判断为是对所述语音对话系统的所述讲话语音的所述周围语音信息被取得的角度的方向,再现所述应答语音。
6.根据权利要求4所述的语音再现方法,在所述多个周围语音信息的某一个包含预先存储的预定的关键字的情况下,判断为该包含预定的关键字的周围语音信息是对所述语音对话系统的讲话语音。
7.根据权利要求1所述的语音再现方法,采用谱减法将所述周围语音信息分离为所述第1语音信息和所述第2语音信息。
8.根据权利要求1所述的语音再现方法,根据所述周围语音信息来识别周围的人,
基于将所述第1语音信息的声级和所述第2语音信息的声级比较的结果、以及识别所述周围的人的结果,切换采用所述第1再现方法和所述第2再现方法中的哪一方进行再现。
9.根据权利要求1所述的语音再现方法,使用将过去取得的所述第1语音信息与在过去再现所述第1语音信息时所选择的所述第1再现方法和所述第2再现方法中的某一方相关联地存储的表格,选择再现所述应答语音的再现方法。
10.根据权利要求2所述的语音再现方法,取得所述语音对话系统的周围的图像,
根据所述图像来检测注视着所述语音对话系统的人,
在采用所述第2再现方法再现所述应答语音时,向检测出的所述人再现所述应答语音。
11.根据权利要求1所述的语音再现方法,所述第1再现方法是不具有指向性的再现方法,
所述第2再现方法是对讲话者具有指向性的再现方法,
取得所述语音对话系统的周围的图像,
根据所述图像来检测注视着所述语音对话系统的人的数量,
根据所述人的数量的检测结果来判断是否为多个人注视着所述语音对话系统,
在判断为多个人注视着所述语音对话系统的情况下,采用所述第1再现方法再现所述应答语音,
在判断为不是多个人注视着所述语音对话系统的情况下,采用所述第2再现方法再现所述应答语音。
12.根据权利要求1所述的语音再现方法,所述第1再现方法是不具有指向性的再现方法,
所述第2再现方法是对讲话者具有指向性的再现方法,
通过所述讲话者持有的拾音装置拾取所述讲话语音,
取得所述语音对话系统的周围的图像,
根据所述图像来确定对所述拾音装置讲话的所述讲话者的位置,
判断是否在由所述讲话者对所述拾音装置输入了预定的指示信号的状态下拾取到所述讲话语音,
在判断为不是在所述预定的指示信号被输入了所述拾音装置的状态下拾取到所述讲话语音的情况下,采用所述第1再现方法再现所述应答语音,
在判断为在所述预定的指示信号被输入了所述拾音装置的状态下拾取到所述讲话语音的情况下,采用所述第2再现方法再现所述应答语音。
13.根据权利要求1所述的语音再现方法,所述第1再现方法是不具有指向性的再现方法,
所述第2再现方法是对讲话者具有指向性的再现方法,
所述周围语音信息包含从含有多个麦克风的阵列麦克风系统取得的、以每预定的角度具有指向性的多个周围语音信息,
通过判断所述多个周围语音信息的各自是否为对所述语音对话系统的所述讲话语音,而将所述多个周围语音信息分离为所述第1语音信息和所述第2语音信息,
基于取得了包含所述第1语音信息的周围语音信息的麦克风的指向性来确定所述讲话者的位置,
参照将所述讲话者的位置与所述第1再现方法和所述第2再现方法中的某一方相关联地存储的语音信息数据库,来判断确定出的所述讲话者的位置是否关联有所述第1再现方法和所述第2再现方法中的某一方,
在判断为确定出的所述讲话者的位置关联有所述第1再现方法和所述第2再现方法中的某一方的情况下,采用与确定出的所述讲话者的位置相关联的所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音,
在判断为所述第1再现方法和所述第2再现方法中的哪一方都没有与所述讲话者的位置相关联的情况下,将所述第1语音信息的声级和所述第2语音信息的声级进行比较,
在所述第1语音信息的声级高于所述第2语音信息的声级的情况下,采用所述第1再现方法再现所述应答语音,
在所述第1语音信息的声级低于所述第2语音信息的声级的情况下,采用所述第2再现方法再现所述应答语音,
将确定出的所述讲话者的位置与再现了所述应答语音的所述第1再现方法和所述第2再现方法中的某一方相关联地存储于所述语音信息数据库。
14.根据权利要求1所述的语音再现方法,识别发出所述讲话语音的讲话者,
从将识别所述讲话者的信息与所述第1再现方法和所述第2再现方法中的某一方相关联地存储的声音信息数据库中,选择与识别出的所述讲话者相关联的所述第1再现方法和所述第2再现方法中的某一方,
采用所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音。
15.根据权利要求1所述的语音再现方法,所述第1再现方法是不具有指向性的再现方法,
所述第2再现方法是对讲话者具有指向性的再现方法,
判断分离出的所述第1语音信息是否包含预先存储于存储部的预定的关键字,
在判断为所述第1语音信息包含所述预定的关键字的情况下,采用所述第1再现方法再现所述应答语音,
在判断为所述第1语音信息不包含所述预定的关键字的情况下,采用所述第2再现方法再现所述应答语音。
16.根据权利要求1所述的语音再现方法,对分离出的所述第1语音信息的讲话内容进行分析,判断分析出的所述讲话内容是否与上一次取得的第1语音信息的讲话内容相同,
在判断为分析出的所述讲话内容与上一次的讲话内容相同的情况下,不再现所述应答语音,
在判断为分析出的所述讲话内容与上一次的讲话内容不同的情况下,将所述第1语音信息的声级与所述第2语音信息的声级进行比较,根据比较的结果,采用所述第1再现方法和所述第2再现方法中的某一方再现所述应答语音,
将分析出的所述讲话内容存储于所述存储部。
17.根据权利要求1所述的语音再现方法,所述第1再现方法是不具有指向性的再现方法,
所述第2再现方法是对讲话者具有指向性的再现方法,
将分离出的所述第2语音信息中所含的人的语音的声级作为通常声级存储于声级数据库,
判断分离出的所述第1语音信息的声级是否高于存储于所述声级数据库的所述通常声级的平均值,
在判断为所述第1语音信息的声级高于所述通常声级的平均值的情况下,采用所述第1再现方法再现所述应答语音,
在判断为所述第1语音信息的声级低于所述通常声级的平均值的情况下,采用所述第2再现方法再现所述应答语音。
18.根据权利要求1所述的语音再现方法,将所述第1语音信息的声级和所述第2语音信息的声级进行比较,根据比较的结果,采用所述第1再现方法和所述第2再现方法中的某一方,将被所述讲话语音控制的控制对象设备再现的语音再现。
19.一种语音对话装置,具备:
语音分离部,其将包含对所述语音对话装置讲话的讲话语音的、表示所述讲话语音的讲话者的周围的声音的周围语音信息,分离为包含所述讲话语音的第1语音信息和包含除了所述讲话语音以外的声音的第2语音信息;
比较部,其将所述第1语音信息的声级和所述第2语音信息的声级进行比较;以及
再现控制部,其根据比较的结果,采用第1再现方法和再现的语音的指向性与所述第1再现方法不同的第2再现方法中的某一方,再现对所述讲话语音的应答语音。
CN201610204408.XA 2015-04-24 2016-04-01 语音再现方法、语音对话装置 Active CN106067996B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015-089241 2015-04-24
JP2015089241 2015-04-24
JP2016-008005 2016-01-19
JP2016008005A JP6678315B2 (ja) 2015-04-24 2016-01-19 音声再生方法、音声対話装置及び音声対話プログラム

Publications (2)

Publication Number Publication Date
CN106067996A true CN106067996A (zh) 2016-11-02
CN106067996B CN106067996B (zh) 2019-09-17

Family

ID=57146846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610204408.XA Active CN106067996B (zh) 2015-04-24 2016-04-01 语音再现方法、语音对话装置

Country Status (2)

Country Link
US (1) US10089980B2 (zh)
CN (1) CN106067996B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039049A (zh) * 2017-05-27 2017-08-11 郑州仁峰软件开发有限公司 一种数据评估教育系统
CN110035339A (zh) * 2018-01-09 2019-07-19 丰田自动车株式会社 对话装置
CN110431621A (zh) * 2017-03-15 2019-11-08 东芝数字解决方案株式会社 声音合成装置、声音合成方法及程序

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10983753B2 (en) 2017-06-09 2021-04-20 International Business Machines Corporation Cognitive and interactive sensor based smart home solution
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
CN113986187B (zh) * 2018-12-28 2024-05-17 阿波罗智联(北京)科技有限公司 音区幅值获取方法、装置、电子设备及存储介质
US20220198140A1 (en) * 2020-12-21 2022-06-23 International Business Machines Corporation Live audio adjustment based on speaker attributes

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3906156A (en) * 1971-10-06 1975-09-16 Duane H Cooper Signal matrixing for directional reproduction of sound
JPS6075199A (ja) * 1983-09-30 1985-04-27 Ricoh Co Ltd 電気音響変換装置
CN1145512A (zh) * 1995-06-20 1997-03-19 索尼公司 再现语音信号的方法和装置以及传输该信号的方法
CN101246690A (zh) * 2007-02-15 2008-08-20 索尼株式会社 声音处理设备、声音处理方法及程序
CN101527875A (zh) * 2008-03-05 2009-09-09 雅马哈株式会社 声音信号输出装置和方法以及计算机可读记录介质
CN102308277A (zh) * 2009-12-11 2012-01-04 索尼公司 控制装置、控制方法和程序
CN102651831A (zh) * 2011-02-25 2012-08-29 索尼公司 耳机装置及其声音再现方法
US20140270200A1 (en) * 2013-03-13 2014-09-18 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3473517B2 (ja) 1999-09-24 2003-12-08 ヤマハ株式会社 指向性拡声装置
US8094827B2 (en) * 2004-07-20 2012-01-10 Pioneer Corporation Sound reproducing apparatus and sound reproducing system
JP2006270876A (ja) 2005-03-25 2006-10-05 Yamaha Corp 音声入出力装置
JP4674505B2 (ja) * 2005-08-01 2011-04-20 ソニー株式会社 音声信号処理方法、音場再現システム
JP5050721B2 (ja) * 2007-08-06 2012-10-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9107018B2 (en) * 2010-07-22 2015-08-11 Koninklijke Philips N.V. System and method for sound reproduction
KR102102791B1 (ko) * 2013-02-27 2020-05-29 삼성전자주식회사 전자 장치
US10720153B2 (en) * 2013-12-13 2020-07-21 Harman International Industries, Incorporated Name-sensitive listening device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3906156A (en) * 1971-10-06 1975-09-16 Duane H Cooper Signal matrixing for directional reproduction of sound
JPS6075199A (ja) * 1983-09-30 1985-04-27 Ricoh Co Ltd 電気音響変換装置
CN1145512A (zh) * 1995-06-20 1997-03-19 索尼公司 再现语音信号的方法和装置以及传输该信号的方法
CN101246690A (zh) * 2007-02-15 2008-08-20 索尼株式会社 声音处理设备、声音处理方法及程序
CN101527875A (zh) * 2008-03-05 2009-09-09 雅马哈株式会社 声音信号输出装置和方法以及计算机可读记录介质
CN102308277A (zh) * 2009-12-11 2012-01-04 索尼公司 控制装置、控制方法和程序
CN102651831A (zh) * 2011-02-25 2012-08-29 索尼公司 耳机装置及其声音再现方法
US20140270200A1 (en) * 2013-03-13 2014-09-18 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110431621A (zh) * 2017-03-15 2019-11-08 东芝数字解决方案株式会社 声音合成装置、声音合成方法及程序
CN107039049A (zh) * 2017-05-27 2017-08-11 郑州仁峰软件开发有限公司 一种数据评估教育系统
CN110035339A (zh) * 2018-01-09 2019-07-19 丰田自动车株式会社 对话装置

Also Published As

Publication number Publication date
CN106067996B (zh) 2019-09-17
US20160314785A1 (en) 2016-10-27
US10089980B2 (en) 2018-10-02

Similar Documents

Publication Publication Date Title
CN106067996B (zh) 语音再现方法、语音对话装置
US9344878B2 (en) Method and system for operating communication service
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10245732B2 (en) Reception system and reception method
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
JP5753212B2 (ja) 音声認識システム、サーバ、および音声処理装置
US10607625B2 (en) Estimating a voice signal heard by a user
CN103685783A (zh) 信息处理系统和存储介质
US20160366528A1 (en) Communication system, audio server, and method for operating a communication system
CN104202469A (zh) 管理通话连接的方法、装置和终端
JP2017144521A (ja) 情報処理装置、情報処理方法、及びプログラム
KR101145401B1 (ko) 로봇의 음성인식 성능 평가장치 및 평가 방법
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
US11783837B2 (en) Transcription generation technique selection
WO2020066154A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム
KR20200081274A (ko) 음성을 인식하는 장치 및 방법
JP5973030B2 (ja) 音声認識システム、および音声処理装置
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
CN111230891B (zh) 一种机器人及其语音交互系统
US20220217442A1 (en) Method and device to generate suggested actions based on passive audio
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7035686B2 (ja) 遠隔通話装置、遠隔通話プログラム、及び遠隔通話方法
KR20240108146A (ko) 맞춤형 인공지능 출력 시스템
JP2024093431A (ja) 通信端末、情報処理装置、通信方法及びプログラム
JP6392578B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant