CN110634479A - 语音交互系统、其处理方法以及其程序 - Google Patents

语音交互系统、其处理方法以及其程序 Download PDF

Info

Publication number
CN110634479A
CN110634479A CN201910411917.3A CN201910411917A CN110634479A CN 110634479 A CN110634479 A CN 110634479A CN 201910411917 A CN201910411917 A CN 201910411917A CN 110634479 A CN110634479 A CN 110634479A
Authority
CN
China
Prior art keywords
user
voice
topic
question
response sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910411917.3A
Other languages
English (en)
Other versions
CN110634479B (zh
Inventor
渡部生圣
樋口佐和
堀达朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN110634479A publication Critical patent/CN110634479A/zh
Application granted granted Critical
Publication of CN110634479B publication Critical patent/CN110634479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及语音交互系统、其处理方法以及其程序。所述语音交互系统执行与用户的语音交互。所述语音交互系统包括:话题检测装置,其用于估计语音交互的话题并检测已经估计的话题中的变化;以及,反问检测装置,其用于当话题检测装置已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。

Description

语音交互系统、其处理方法以及其程序
技术领域
本公开涉及一种执行与用户的语音交互的语音交互系统、其处理方法及其程序。
背景技术
一种语音交互系统,其识别用户的语音,并且当该语音中包括的单词与在语音交互系统中登记的单词一致时,已知作为反问(参见[0010]对“反问”的解释)的该语音(参见日本未审查专利申请公开No.2014-095753)。还已知另一种基于包括在用户语音中的感叹词来检测反问的语音交互系统(参见日本未审查专利申请公开No.2010-217502)。
在专利文献1中公开的语音交互系统中,存在以下问题:识别语音需要花费时间并且对于未登记的单词不能检测反问。在专利文献2中公开的语音交互系统中,存在以下问题:能够作为反问被检测的语音限于包含感叹词的语音,因此非常有限。
发明内容
本公开是为了解决上述问题而提出的,并且本公开的主要目的是提供一种不需要登记针对反问的单词也能够对宽范围的不包括感叹词的语音检测反问的语音交互系统、其处理方法和其程序。
实现上述目的的本公开的一个方面是一种执行与用户的语音交互的语音交互系统,该系统包括:
话题检测装置,其用于估计语音交互的话题并检测已估计的话题中的变化;以及
反问检测装置,其用于当话题检测装置检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
在这方面,语音交互系统可以进一步包括韵律检测装置,其用于分析用户的语音的韵律信息并检测韵律的变化量,
其中,当话题检测装置已经检测到话题中的变化并且韵律检测装置检测到的韵律的变化量等于或大于预定量时,反问检测装置可以检测作为用户的反问的用户的语音。
在这方面,语音交互系统可以包括用于接收韵律信息并输出反问检测并且对在韵律信息和反问检测之间的关系进行机器学习的学习装置,
其中,当话题检测装置已经检测到话题中的变化,以及学习装置已经接收到用户的语音的韵律信息并且学习装置已经输出了反问检测,反问检测装置可以检测作为用户的反问的用户的语音。
在这方面,语音交互系统可以进一步包括响应语句生成装置,其用于当反问检测装置检测到反问时,基于在反问之前响应于用户的响应语句,响应于反问,生成针对反问的响应语句,
其中,当响应语句包括在与用户的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成装置生成仅由所述单词形成的针对反问的响应语句或生成在响应语句中强调所述单词的针对反问的响应语句。
实现上述目的的本公开的一个方面可以是用于执行与用户的语音交互的语音交互系统的方法,该方法包括以下步骤:
估计语音交互的话题并检测已经估计的话题中的变化;以及
当已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
实现上述目的的本公开的一个方面可以是用于执行与用户的语音交互的语音交互系统的程序,该程序使计算机执行以下处理:
估计语音交互的话题并检测已经估计的话题中的变化;以及
当已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
根据本公开,可以提供一种语音交互系统、其处理方法和其程序,其中所述语音交互系统在不需要针对反问的单词被预先登记的情况下,也能够对宽范围的不包括感叹词的语音来检测所述反问。
从以下给出的详细描述和附图中将更全面地理解本公开的上述和其他目的、特征和优点,附图仅以说明的方式给出,因此不应被视为限制本公开。
附图说明
图1是示出根据本公开的第一实施例的语音交互系统的示意性系统配置的框图;
图2是示出韵律的变化的示意图;
图3是示出表信息的一个示例的示意图;
图4是示出根据本发明的第一实施例的语音交互系统的处理方法的流程的流程图;
图5是示出根据本公开的第二实施例的语音交互系统的示意性系统配置的框图;以及
图6是示出根据本公开的第二实施例的语音交互系统的处理方法的流程的流程图。
具体实施方式
第一实施例
在下文中,参考附图,将解释本公开的实施例。
图1是示出根据本公开的第一实施例的语音交互系统的示意性系统配置的框图。根据第一实施例的语音交互系统1安装在例如机器人、个人计算机(PC)、移动终端(诸如,智能电话或平板电脑)、导航设备等中,并且执行与用户的对话。
在当用户与语音交互系统1进行语音交互时用户可能无法听到语音交互系统1的语音的情况下,用户反问例如,“你能再次重复吗?”(以下将该用户的动作称为反问)。根据本公开的第一实施例的语音交互系统1检测用户的“反问”。
根据第一实施例的语音交互系统1包括被配置为识别用户的语音的语音识别单元2、被配置为分析语音的语句结构的语法分析单元3、被配置为响应于用户的语音生成响应语句的响应语句生成单元4、被配置为输出语音的语音输出单元5、被配置为检测用户语音的韵律的变化量的韵律检测单元6、被配置为检测话题中的变化的话题检测单元7以及被配置为检测用户的反问的反问检测单元。
注意,语音交互系统1由例如主要使用微计算机的硬件形成,所述微计算机包括执行算术处理等的中央处理单元(CPU)、由只读存储器(ROM)和随机存取存储器(RAM)组成并存储由CPU等执行的算术程序的存储器、外部接收和输出信号的接口单元(I/F)等。CPU、存储器和接口单元通过数据总线等彼此连接。
语音识别单元2基于通过麦克风输入的用户的语音的信息执行语音识别处理,将用户的语音的信息转换为文本,从而将其识别为字符串信息。
例如,语音识别单元2将通过麦克风输入的用户的语音的信息转换为数字信号。语音识别单元2通过从上述数字化信息中检测语音部分执行语音识别并通过参考统计语言模型等对检测到的语音部分中的语音信息执行模式匹配。
注意,统计语言模型是例如用于计算语言表达的发生概率诸如单词的出现分布和在某个单词之后出现的单词的分布的概率模型,并且通过以语素为基础的学习连接概率获得。统计语言模型预先存储在存储器等中。语音识别单元2为用户的语音信息中的每个语素生成添加部分信息的语素信息,即,通过给每个语素添加部分的类型(诸如名词、形容词、动词、形容词等)而获得的信息。语音识别单元2将识别的用户的语音信息输出到语法分析单元3。
语法分析单元3分析由语音识别单元2识别的语音信息的语句结构。例如,语法分析单元3通过使用普通语素分析器对表示语音识别用户的语音信息的字符串信息执行语素分析等以及对字符串信息执行语义分析。语法分析单元3将字符串信息的分析结果(包括语素信息、修改信息、通过识别获得的文本等)输出到响应语句生成单元4。
响应语句生成单元4基于由语法分析单元3分析的语音信息的分析结果,生成对用户的语音信息的响应语句。
例如,响应语句生成单元4基于从语法分析单元3输出的字符串信息的分析结果,生成对用户的语音信息的响应语句。更具体地,响应语句生成单元4从字符串信息“我下围棋”中提取一个谓词术语“下围棋”。语法分析单元3使用提取的语素串“下围棋”作为特征向量并使用支持向量机(SVM)模型来执行情绪辨别(消极和积极)。
当情绪辨别的结果是积极的时,响应语句生成单元4生成响应语句“听起来不错”。另一方面,当情绪辨别的结果是消极的时,响应语句生成单元4生成响应语句“看起来很麻烦”。上述生成响应语句的方法仅是一个示例,并且该实施例不限于此。可以使用期望的生成方法。响应语句生成单元4将已生成的响应语句输出到语音输出单元5。
语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句。语音输出单元5使用扬声器等向用户输出例如响应语句的语音。
顺便提及,在根据相关技术的语音交互系统中,存在识别语音需要花费时间并且对于未登记的单词不能检测反问的问题。在根据相关技术的语音交互系统中还存在一个问题,即能够被检测为反问的语音仅限于包含感叹词的语音,因此非常有限。
另一方面,当话题检测单元7已经检测到话题中的变化时,根据第一实施例的语音交互系统1基于用户的语音的韵律检测作为用户的反问的用户的语音。
当语音交互的话题中的变化时,用户可能难以听到语音并且反问倾向于容易发生。此外,反问的语音中的韵律发生了特征性的变化。基于该特征,如上所述,在根据第一实施例的语音交互系统1中,当已经检测到话题中的变化时,基于用户的语音的韵律检测作为用户的反问的用户的语音。因此,在不需要如上所述的针对反问的单词预先被登记的情况下,也可以针对宽的不包括感叹词的语音范围上检测反问。
此外,通过基于话题和韵律信息的变化检测反问,不太可能发生处理延迟,并且可以在不依赖于反问的语言和语音识别的准确性的情况下提高检测反问的准确性。
韵律检测单元6是韵律检测装置的一个具体示例。韵律检测单元6分析例如经由麦克风输入的用户的语音的韵律信息,并检测韵律的变化量。当用户的语音时反问时,特征出现在语音的末尾。因此,韵律检测单元6将例如用户语音的结束的预定时段分成两部分,并检测前半部分中语音高度的平均值之间和后半部分中语音高度的平均值之间的差异(或倾斜)作为韵律的变化量。
更具体地,如图2中所示,韵律检测单元6检测用户的语音“去一座山”结束时100毫秒的语音高度的平均值与恰好之前100毫秒的语音高度的平均值之间的差值作为量韵律的变化量。韵律检测单元6将已经检测到的韵律的变化量输出到反问检测单元8。
话题检测单元7是话题检测装置的一个具体示例。话题检测单元7基于由响应语句生成单元4生成的响应语句中出现的单词来估计语音交互的话题。话题检测单元7通过将响应语句中的单词与预先在存储器中设置的表信息进行比较来估计话题。
如图3中所示,在表信息中,包含在各个话题中的话题和单词彼此相关联。话题检测单元7从表信息中的话题中估计包括表信息中的最大数量的单词的话题。当在一个话题中出现的单词的数量与另一话题中出现的数量相同时,话题检测单元7可以估计表信息中的最高顺序话题。
话题检测单元7将例如响应语句“我吃了很多早餐”中的单词“早餐”、“很多”、“吃”与表信息进行比较。话题检测单元7从表信息中的话题“膳食”、“健康”和“家庭”中估计话题“膳食”在表信息中包括最大数量的单词“早餐”、“吃”。在话题检测单元7中估计话题的上述方法仅是示例,并且本实施例不限于此。
话题检测单元7可以基于经由麦克风输入的用户语音中出现的单词来估计语音交互的话题。话题检测单元7通过将用户语音中的单词与预先在存储器中设置的表信息进行比较来估计话题。
如上所述,话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化。例如,当已经估计到话题已经从“膳食”变化为“健康”时,话题检测单元7检测话题中的变化。
反问检测单元8是反问检测装置的一个具体示例。如上所述,当话题检测单元7已经检测到话题中的变化时,反问检测单元8基于用户语音的韵律信息检测作为用户的反问的用户的语音。
当用户的语音是反问时,如图2中所示,韵律的变化量在语音结束时变大。这是因为在反问的情况下,用户像他/她正在问一个问题一样讲话,这使得语音结束时的音调很高。
因此,例如,当由话题检测单元7检测到话题中的变化和由韵律检测单元6检测到的韵律的变化量高即等于或大于预定量时,反问检测单元8检测作为用户的反问的用户的语音。作为预定量的在反问时语音结束时的韵律的变化量预先通过实验获得,并且该预定量被设置在存储器中。当反问检测单元8检测反问时,检测单元8将指示结果的检测信号输出到响应语句生成单元4。
响应语句生成单元4是响应语句生成装置的一个具体示例。当响应语句生成单元4从反问检测单元8接收检测信号时,响应语句生成单元4基于恰好在反问的用户的语音之前输出的响应语句生成针对反问的响应语句。响应语句生成单元4直接重新生成例如恰好在反问的用户的语音之前输出的响应语句作为反问的响应语句。因此,可以容易地生成针对反问的响应语句。
可能的是,当存在用户难以在针对反问的响应语句中听到的单词时,即使重复该响应语句用户可能仍然不能够容易地听到响应语句。
另一方面,当恰好在反问之前响应于用户的响应语句包括在语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由该单词组成的响应语句。
例如,对于恰好在反问之前的响应语句“我去Gifu打高尔夫球”,响应语句生成单元4生成针对反问“高尔夫”的响应语句,其仅由其出现的频率等于或小于第一预定值的单词“高尔夫”组成。
能够估计,在与用户的语音交互的历史(下文中该历史将被称为语音交互历史)中不太可能频繁出现的单词是用户不熟悉的单词,因此是用户难以听到的单词。因此,当恰好在反问之前的响应语句包括在语音交互的历史中的其出现的频率低即等于或小于第一预定值的单词时,响应语句生成单元4生成仅由用户难以听到的单词组成的针对反问的响应语句。因此,通过仅提取和强调用户特别难以听到的单词,用户可以容易地听到该单词。即,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
语音交互历史包括多个语音交互,所述语音交互历史是在用户和语音交互系统1之间执行的语音交互的历史。语音交互历史被顺序存储在存储器等中。例如,预先通过实验获得当确定用户难以听到该单词时作为第一预定值的单词的出现频率,并且该第一预定值被存储在存储器中。
当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成在响应语句中强调该单词的针对反问的响应语句。因此,通过强调和加重用户特别难以听到的单词,用户可以容易地听到该单词变得可能。也就是说,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
响应语句生成单元4使所述单词的语音速度低于恰好在反问之前的响应语句中除了所述单词之外的单词的语音速度。因此,可以在针对反问的响应语句中特别地加重语音速度低的单词并且进一步强调该单词,使得用户将能够容易地听到该单词。
响应语句生成单元4使所述单词的音量大于恰好在反问之前的响应语句中除所述单词之外的单词的音量。因此,可以在针对反问的响应语句中特别地加重音量大的单词并且进一步强调该单词,使得用户将能够容易地听到该单词。通过实验获得用户能够容易地听到该单词的语音速度和音量,并且在存储器中设置该语音速度和音量。
响应语句生成单元4使在恰好在反问之前的响应语句中所述单词和前后单词之间有停顿。因此,可以在针对反问的响应语句中特别加重该单词并进一步强调该单词,使得用户能够容易地听到该单词。
此外,响应语句生成单元4可以通过恰好在反问之前的响应语句中任意组合上述方法来生成针对反问的响应语句。响应语句生成单元4可以生成针对反问的响应语句,其中语音速度和单词的音量低于恰好在反问之前的响应语句中除了该单词之外的单词的语音速度和音量。
响应语句生成单元4将已经生成的针对反问的响应语句输出到语音输出单元5。语音输出单元5通过语音输出由响应语句生成单元4生成的针对反问的响应语句。因此,语音交互系统1能够适当地响应用户的反问。
图4是示出根据本公开的第一实施例的语音交互系统的处理方法的流程的流程图。韵律检测单元6分析经由麦克风输入的用户语音的韵律,并检测韵律的变化量(步骤S101)。
话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化(步骤S102)。当话题检测单元7检测到话题中的变化并且韵律检测单元6检测到的韵律的变化量等于或大于预定量时,反问检测单元8检测作为用户的反问的用户的语音(步骤S103)。
当反问检测单元8已经检测到反问(步骤S103中的“是”)时,响应语句生成单元4生成针对反问的响应语句(步骤S104),将已经生成的响应语句输出到语音输出单元5,然后过程进行到(步骤S110)将在后面解释。
另一方面,当反问检测单元8没有检测到反问(步骤S103中的“否”)时,语音识别单元2基于用户语音的信息执行语音识别处理、将用户语音的信息转换为文本、将其识别为字符串信息以及将已识别的用户语音的信息输出到语法分析单元3(步骤S105)。
语法分析单元3分析由语音识别单元2识别的语音信息的语句结构,并将分析结果输出到响应语句生成单元4(步骤S106)。响应语句生成单元4基于由语法分析单元3分析的语音信息的分析结果,响应于关于用户语音的信息生成响应语句(步骤S107)。语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句(步骤S108)。
如上所述,当话题检测单元7已经检测到话题中的变化时,根据第一实施例的语音交互系统1基于用户的语音的韵律信息检测作为用户的反问的用户的语音。因此,在不需要如上所述的针对反问的单词预先被登记的情况下,也可以检测对宽范围的不包括感叹词的语音的反问。
第二实施例
图5是示出根据本公开的第二实施例的语音交互系统的示意性系统配置的框图。根据第二实施例的语音交互系统20进一步包括学习单元9,其接收用户的语音的韵律信息,输出反问检测,并且机器学习用户的语音的韵律信息与反问检测之间的关系。
学习单元9是学习装置的一个具体示例。学习单元9使用学习数据预先进行学习,在该学习数据中,作为输入的反问时用户的语音的韵律信息和作为输出的反问检测彼此相关联。学习单元9由例如诸如递归神经网络(RNN)的神经网络形成。该RNN在其中间层中包括长短期存储器(LSTM)。学习单元9在反问时执行用户的语音的韵律的变化的学习并捕获其特征,从而可以以更高的准确度检测反问。
上述学习单元9的配置详细公开在例如Towards a General,Continuous Modelof Turn-taking in Spoken Dialogue using LSTM Recurrent Neural Networks(使用LSTM回归神经网络实现口语对话的话轮转换的一般连续模型),Sigdial 2017,其公开内容通过引用结合于此。
学习单元9可以由代替神经网络的诸如支持向量机(SVM)的学习设备组成。
话题检测单元7可以基于由响应语句生成单元4生成的响应语句的单词矢量指定该单词的较高概念词,并估计话题。因此,可以估计未存储在表信息中的未知话题。
上述估计方法在“Jointly Learning Hypernym-Hyponym Relations and theirClusters,Josuke Yamane,Tomoya Takatani,Hitoshi Yamada,Makoto Miwa,and YutakaSasaki,第22届自然语言处理协会年会,B3-4,仙台,2016”中详细公开,其公开内容通过引用并入本文。
存在与用户的交互主要由语音交互系统1进行的情况。在这种情况下,语音交互系统1执行与用户的语音交互的话题被预先设置在语音交互系统1中。因此,话题检测单元7可以估计已经预先设置的语音交互的话题。因此可以明确地估计语音交互的话题。
如上所述,话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化。当话题检测单元7已经检测到话题中的变化、来自韵律检测单元6的用户的语音的韵律信息已经被输入到学习单元9以及学习单元9已经输出反问检测时,反问检测单元8检测作为用户的反问的用户的语音。
图6是示出根据本公开的第二实施例的语音交互系统的处理方法的流程的流程图。学习单元9使用学习数据执行学习,在学习数据中在再次检测时用户的语音的韵律信息与反问检测彼此相关联(步骤S201)。
韵律检测单元6分析经由麦克风输入的用户的语音的韵律,并检测韵律信息(韵律的变化量等)(步骤S202)。话题检测单元7基于由响应语句生成单元4生成的响应语句的单词矢量,指定该单词的较高概念词,估计话题,并检测已经估计的话题的变化(步骤S203)。
用户的语音的韵律信息从韵律检测单元6输入到学习单元9(步骤S204)。当话题检测单元7已经检测到话题的变化并且学习单元9已经输出反问检测时,反问检测单元8检测作为用户的反问的用户的语音(步骤S205)。
当反问检测单元8已经检测到反问(步骤S205中的“是”)时,响应语句生成单元4生成针对反问的响应语句(步骤S206),将已经生成的响应语句输出到语音输出单元5,然后过程进行到将在后面解释的(步骤S210)。
当反问检测单元8没有检测到反问(步骤S205中的“否”)时,语音识别单元2基于用户的语音的信息执行语音识别处理,将用户的语音的信息转换为文本,识别字符串信息,以及将已识别的用户的语音的信息输出到语法分析单元3(步骤S207)。
语法分析单元3分析由语音识别单元2识别的语音信息的语句结构,并将分析结果输出到响应语句生成单元4(步骤S208)。响应语句生成单元4基于由语法分析单元3分析的语音信息的语句结构,响应于用户的语音的信息,生成响应语句(步骤S209)。语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句(步骤S210)。
虽然上面已经描述了本公开的一些实施例,但是这些实施例是作为示例呈现的,并不旨在限制本公开的范围。这些新颖的实施例能够以其他各种形式实现,并且在不脱离本公开的精神的情况下,可以进行各种类型的省略、替换或变化。落入本公开的范围和精神内的这些实施例及其修改包括在权利要求中提供的公开内容及其等同物的范围内。
本公开能够通过使CPU执行计算机程序来实现例如图4和图6中所示的处理。
使用任何类型的非暂时性计算机可读介质能够存储(一个或多个)程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如,软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、光盘只读存储器(CD-ROM)、CD-R、CD-R/W和半导体存储器(诸如,掩模ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、闪存ROM和随机存取存储器(RAM)等)。
此外,使用任何类型的暂时性计算机可读介质可以将(一个或多个)程序提供给计算机。暂时性计算机可读介质的示例包括电信号、光信号和电磁波。暂时性计算机可读介质经由有线通信线路(例如,电线和光纤)或无线通信线路能够将程序提供给计算机。
从如此描述的公开内容中,显而易见的是,本公开的实施例可以以多种方式变化。不应将这些变化视为脱离本公开的精神和范围,并且对于本领域技术人员显而易见的所有这些修改旨在包括在所附权利要求的范围内。

Claims (6)

1.一种执行与用户的语音交互的语音交互系统,所述系统包括:
话题检测装置,所述话题检测装置用于估计所述语音交互的话题并且检测被估计出的所述话题的变化;以及
反问检测装置,所述反问检测装置用于:当由所述话题检测装置检测到所述话题的变化时,基于所述用户的语音的韵律信息来检测作为所述用户的反问的所述用户的语音。
2.根据权利要求1所述的语音交互系统,进一步包括:
韵律检测装置,所述韵律检测装置用于分析所述用户的语音的所述韵律信息并且检测所述韵律的变化量,
其中,当由所述话题检测装置检测到所述话题的变化并且由所述韵律检测装置检测到的所述韵律的变化量等于或大于预定量时,所述反问检测装置检测作为所述用户的反问的所述用户的语音。
3.根据权利要求1所述的语音交互系统,包括:
学习装置,所述学习装置用于接收所述韵律信息并且输出反问检测,以及对所述韵律信息和所述反问检测之间的关系进行机器学习,
其中,当由所述话题检测装置检测到所述话题的变化,以及由所述学习装置接收到所述用户的语音的所述韵律信息并且所述学习装置输出了所述反问检测时,所述反问检测装置检测作为所述用户的反问的所述用户的语音。
4.根据权利要求1至3中任一项所述的语音交互系统,进一步包括:
响应语句生成装置,所述响应语句生成装置用于:当由所述反问检测装置检测到所述反问时,基于在所述反问之前的响应于所述用户的响应语句,响应于所述反问来生成针对所述反问的响应语句,
其中,当所述响应语句包含有在与所述用户的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,所述响应语句生成装置生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
5.一种用于执行与用户的语音交互的语音交互系统的处理方法,所述方法包括以下步骤:
估计所述语音交互的话题,并且检测被估计出的所述话题的变化;以及
当检测到所述话题的变化时,基于所述用户的语音的韵律信息,来检测作为所述用户的反问的所述用户的语音。
6.一种计算机可读介质,所述计算机可读介质存储有用于执行与用户的语音交互的语音交互系统的程序,所述程序使计算机执行以下处理:
估计所述语音交互的话题,并且检测被估计出的所述话题的变化;以及
当检测到所述话题的变化时,基于所述用户的语音的韵律信息,来检测作为所述用户的反问的所述用户的语音。
CN201910411917.3A 2018-05-31 2019-05-17 语音交互系统、其处理方法以及其程序 Active CN110634479B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-104982 2018-05-31
JP2018104982A JP7151181B2 (ja) 2018-05-31 2018-05-31 音声対話システム、その処理方法及びプログラム

Publications (2)

Publication Number Publication Date
CN110634479A true CN110634479A (zh) 2019-12-31
CN110634479B CN110634479B (zh) 2023-02-28

Family

ID=68694137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411917.3A Active CN110634479B (zh) 2018-05-31 2019-05-17 语音交互系统、其处理方法以及其程序

Country Status (3)

Country Link
US (1) US11270691B2 (zh)
JP (1) JP7151181B2 (zh)
CN (1) CN110634479B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
US11250853B2 (en) 2020-04-30 2022-02-15 Robert Bosch Gmbh Sarcasm-sensitive spoken dialog system
WO2024071921A1 (ko) * 2022-09-30 2024-04-04 삼성전자 주식회사 인공지능과 음성 인식을 기반으로 동작하는 전자 장치 및 이의 제어 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272991A (ja) * 2000-03-24 2001-10-05 Sanyo Electric Co Ltd 音声対話方法及び音声対話装置
JP2001331191A (ja) * 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
CN101192405A (zh) * 2006-12-01 2008-06-04 索尼株式会社 语音处理设备、语音处理方法和语音处理程序
US20100286490A1 (en) * 2006-04-20 2010-11-11 Iq Life, Inc. Interactive patient monitoring system using speech recognition
CN103003876A (zh) * 2010-07-16 2013-03-27 国际商业机器公司 修改经由声音通道的对话中的语音质量
US20170140757A1 (en) * 2011-04-22 2017-05-18 Angel A. Penilla Methods and vehicles for processing voice commands and moderating vehicle response

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US20070294229A1 (en) * 1998-05-28 2007-12-20 Q-Phrase Llc Chat conversation methods traversing a provisional scaffold of meanings
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US20050283473A1 (en) * 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search
JP4353212B2 (ja) 2006-07-20 2009-10-28 株式会社デンソー 単語列認識装置
US9014365B1 (en) * 2007-06-06 2015-04-21 United Services Automobile Association (Usaa) Systems and methods for state information exchange
US20090210411A1 (en) * 2008-02-15 2009-08-20 Oki Electric Industry Co., Ltd. Information Retrieving System
JP2010197858A (ja) 2009-02-26 2010-09-09 Gifu Univ 音声対話システム
JP5382780B2 (ja) 2009-03-17 2014-01-08 株式会社国際電気通信基礎技術研究所 発話意図情報検出装置及びコンピュータプログラム
US9634855B2 (en) * 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US20130325447A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability corporation of the State of Delaware Speech recognition adaptation systems based on adaptation data
KR102056461B1 (ko) * 2012-06-15 2019-12-16 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
JP6073649B2 (ja) 2012-11-07 2017-02-01 株式会社日立システムズ 音声自動認識・音声変換システム
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
US10726831B2 (en) 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9519634B2 (en) * 2014-05-30 2016-12-13 Educational Testing Service Systems and methods for determining lexical associations among words in a corpus
JP2016061970A (ja) 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
US10395552B2 (en) * 2014-12-19 2019-08-27 International Business Machines Corporation Coaching a participant in a conversation
JP6601069B2 (ja) * 2015-09-01 2019-11-06 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
JP2017049471A (ja) * 2015-09-03 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
JP6851871B2 (ja) * 2016-03-30 2021-03-31 光吉 俊二 意思創発装置、意思創発方法および意思創発プログラム
WO2017200078A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US10049263B2 (en) * 2016-06-15 2018-08-14 Stephan Hau Computer-based micro-expression analysis
US9875740B1 (en) * 2016-06-20 2018-01-23 A9.Com, Inc. Using voice information to influence importance of search result categories
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
JP6731326B2 (ja) * 2016-10-31 2020-07-29 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
US20180133900A1 (en) * 2016-11-15 2018-05-17 JIBO, Inc. Embodied dialog and embodied speech authoring tools for use with an expressive social robot
JP6785473B2 (ja) * 2016-12-27 2020-11-18 パナソニックIpマネジメント株式会社 戸装置の施工方法及び戸装置取付構造
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107030691B (zh) * 2017-03-24 2020-04-14 华为技术有限公司 一种看护机器人的数据处理方法及装置
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
US10824595B1 (en) * 2017-10-09 2020-11-03 United Services Automobile Services (USAA) Personalized user interface systems and methods
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
WO2019161193A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for adaptive detection of spoken language via multiple speech models
WO2019161198A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
US11018997B2 (en) * 2018-04-12 2021-05-25 Disney Enterprises, Inc. Systems and methods for maintaining a conversation
JP7059813B2 (ja) 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272991A (ja) * 2000-03-24 2001-10-05 Sanyo Electric Co Ltd 音声対話方法及び音声対話装置
JP2001331191A (ja) * 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
US20100286490A1 (en) * 2006-04-20 2010-11-11 Iq Life, Inc. Interactive patient monitoring system using speech recognition
CN101192405A (zh) * 2006-12-01 2008-06-04 索尼株式会社 语音处理设备、语音处理方法和语音处理程序
CN103003876A (zh) * 2010-07-16 2013-03-27 国际商业机器公司 修改经由声音通道的对话中的语音质量
US20170140757A1 (en) * 2011-04-22 2017-05-18 Angel A. Penilla Methods and vehicles for processing voice commands and moderating vehicle response

Also Published As

Publication number Publication date
JP7151181B2 (ja) 2022-10-12
US11270691B2 (en) 2022-03-08
CN110634479B (zh) 2023-02-28
US20190371302A1 (en) 2019-12-05
JP2019211515A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
CN110634479B (zh) 语音交互系统、其处理方法以及其程序
US10452352B2 (en) Voice interaction apparatus, its processing method, and program
CN108536802B (zh) 基于儿童情绪的交互方法及装置
CN108428447B (zh) 一种语音意图识别方法及装置
CN110556105B (zh) 语音交互系统、其处理方法及其程序
KR102161579B1 (ko) 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
US11688416B2 (en) Method and system for speech emotion recognition
US10573307B2 (en) Voice interaction apparatus and voice interaction method
WO2020238209A1 (zh) 音频处理的方法、系统及相关设备
CN111583912A (zh) 语音端点检测方法、装置以及电子设备
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP2016009091A (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
CN113763921B (zh) 用于纠正文本的方法和装置
WO2016009634A1 (ja) 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体
CN117219118A (zh) 音频质检的方法及系统
CN113689886A (zh) 语音数据情感检测方法、装置、电子设备和存储介质
KR20000055394A (ko) 음성 인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant