CN110634479B - 语音交互系统、其处理方法以及其程序 - Google Patents
语音交互系统、其处理方法以及其程序 Download PDFInfo
- Publication number
- CN110634479B CN110634479B CN201910411917.3A CN201910411917A CN110634479B CN 110634479 B CN110634479 B CN 110634479B CN 201910411917 A CN201910411917 A CN 201910411917A CN 110634479 B CN110634479 B CN 110634479B
- Authority
- CN
- China
- Prior art keywords
- user
- voice
- question
- topic
- response sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 80
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 69
- 230000008859 change Effects 0.000 claims abstract description 46
- 230000004044 response Effects 0.000 claims description 113
- 238000000034 method Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 235000021152 breakfast Nutrition 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及语音交互系统、其处理方法以及其程序。所述语音交互系统执行与用户的语音交互。所述语音交互系统包括:话题检测装置,其用于估计语音交互的话题并检测已经估计的话题中的变化;以及,反问检测装置,其用于当话题检测装置已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
Description
技术领域
本公开涉及一种执行与用户的语音交互的语音交互系统、其处理方法及其程序。
背景技术
一种语音交互系统,其识别用户的语音,并且当该语音中包括的单词与在语音交互系统中登记的单词一致时,已知作为反问(参见[0010]对“反问”的解释)的该语音(参见日本未审查专利申请公开No.2014-095753)。还已知另一种基于包括在用户语音中的感叹词来检测反问的语音交互系统(参见日本未审查专利申请公开No.2010-217502)。
在专利文献1中公开的语音交互系统中,存在以下问题:识别语音需要花费时间并且对于未登记的单词不能检测反问。在专利文献2中公开的语音交互系统中,存在以下问题:能够作为反问被检测的语音限于包含感叹词的语音,因此非常有限。
发明内容
本公开是为了解决上述问题而提出的,并且本公开的主要目的是提供一种不需要登记针对反问的单词也能够对宽范围的不包括感叹词的语音检测反问的语音交互系统、其处理方法和其程序。
实现上述目的的本公开的一个方面是一种执行与用户的语音交互的语音交互系统,该系统包括:
话题检测装置,其用于估计语音交互的话题并检测已估计的话题中的变化;以及
反问检测装置,其用于当话题检测装置检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
在这方面,语音交互系统可以进一步包括韵律检测装置,其用于分析用户的语音的韵律信息并检测韵律的变化量,
其中,当话题检测装置已经检测到话题中的变化并且韵律检测装置检测到的韵律的变化量等于或大于预定量时,反问检测装置可以检测作为用户的反问的用户的语音。
在这方面,语音交互系统可以包括用于接收韵律信息并输出反问检测并且对在韵律信息和反问检测之间的关系进行机器学习的学习装置,
其中,当话题检测装置已经检测到话题中的变化,以及学习装置已经接收到用户的语音的韵律信息并且学习装置已经输出了反问检测,反问检测装置可以检测作为用户的反问的用户的语音。
在这方面,语音交互系统可以进一步包括响应语句生成装置,其用于当反问检测装置检测到反问时,基于在反问之前响应于用户的响应语句,响应于反问,生成针对反问的响应语句,
其中,当响应语句包括在与用户的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成装置生成仅由所述单词形成的针对反问的响应语句或生成在响应语句中强调所述单词的针对反问的响应语句。
实现上述目的的本公开的一个方面可以是用于执行与用户的语音交互的语音交互系统的方法,该方法包括以下步骤:
估计语音交互的话题并检测已经估计的话题中的变化;以及
当已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
实现上述目的的本公开的一个方面可以是用于执行与用户的语音交互的语音交互系统的程序,该程序使计算机执行以下处理:
估计语音交互的话题并检测已经估计的话题中的变化;以及
当已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
根据本公开,可以提供一种语音交互系统、其处理方法和其程序,其中所述语音交互系统在不需要针对反问的单词被预先登记的情况下,也能够对宽范围的不包括感叹词的语音来检测所述反问。
从以下给出的详细描述和附图中将更全面地理解本公开的上述和其他目的、特征和优点,附图仅以说明的方式给出,因此不应被视为限制本公开。
附图说明
图1是示出根据本公开的第一实施例的语音交互系统的示意性系统配置的框图;
图2是示出韵律的变化的示意图;
图3是示出表信息的一个示例的示意图;
图4是示出根据本发明的第一实施例的语音交互系统的处理方法的流程的流程图;
图5是示出根据本公开的第二实施例的语音交互系统的示意性系统配置的框图;以及
图6是示出根据本公开的第二实施例的语音交互系统的处理方法的流程的流程图。
具体实施方式
第一实施例
在下文中,参考附图,将解释本公开的实施例。
图1是示出根据本公开的第一实施例的语音交互系统的示意性系统配置的框图。根据第一实施例的语音交互系统1安装在例如机器人、个人计算机(PC)、移动终端(诸如,智能电话或平板电脑)、导航设备等中,并且执行与用户的对话。
在当用户与语音交互系统1进行语音交互时用户可能无法听到语音交互系统1的语音的情况下,用户反问例如,“你能再次重复吗?”(以下将该用户的动作称为反问)。根据本公开的第一实施例的语音交互系统1检测用户的“反问”。
根据第一实施例的语音交互系统1包括被配置为识别用户的语音的语音识别单元2、被配置为分析语音的语句结构的语法分析单元3、被配置为响应于用户的语音生成响应语句的响应语句生成单元4、被配置为输出语音的语音输出单元5、被配置为检测用户语音的韵律的变化量的韵律检测单元6、被配置为检测话题中的变化的话题检测单元7以及被配置为检测用户的反问的反问检测单元。
注意,语音交互系统1由例如主要使用微计算机的硬件形成,所述微计算机包括执行算术处理等的中央处理单元(CPU)、由只读存储器(ROM)和随机存取存储器(RAM)组成并存储由CPU等执行的算术程序的存储器、外部接收和输出信号的接口单元(I/F)等。CPU、存储器和接口单元通过数据总线等彼此连接。
语音识别单元2基于通过麦克风输入的用户的语音的信息执行语音识别处理,将用户的语音的信息转换为文本,从而将其识别为字符串信息。
例如,语音识别单元2将通过麦克风输入的用户的语音的信息转换为数字信号。语音识别单元2通过从上述数字化信息中检测语音部分执行语音识别并通过参考统计语言模型等对检测到的语音部分中的语音信息执行模式匹配。
注意,统计语言模型是例如用于计算语言表达的发生概率诸如单词的出现分布和在某个单词之后出现的单词的分布的概率模型,并且通过以语素为基础的学习连接概率获得。统计语言模型预先存储在存储器等中。语音识别单元2为用户的语音信息中的每个语素生成添加部分信息的语素信息,即,通过给每个语素添加部分的类型(诸如名词、形容词、动词、形容词等)而获得的信息。语音识别单元2将识别的用户的语音信息输出到语法分析单元3。
语法分析单元3分析由语音识别单元2识别的语音信息的语句结构。例如,语法分析单元3通过使用普通语素分析器对表示语音识别用户的语音信息的字符串信息执行语素分析等以及对字符串信息执行语义分析。语法分析单元3将字符串信息的分析结果(包括语素信息、修改信息、通过识别获得的文本等)输出到响应语句生成单元4。
响应语句生成单元4基于由语法分析单元3分析的语音信息的分析结果,生成对用户的语音信息的响应语句。
例如,响应语句生成单元4基于从语法分析单元3输出的字符串信息的分析结果,生成对用户的语音信息的响应语句。更具体地,响应语句生成单元4从字符串信息“我下围棋”中提取一个谓词术语“下围棋”。语法分析单元3使用提取的语素串“下围棋”作为特征向量并使用支持向量机(SVM)模型来执行情绪辨别(消极和积极)。
当情绪辨别的结果是积极的时,响应语句生成单元4生成响应语句“听起来不错”。另一方面,当情绪辨别的结果是消极的时,响应语句生成单元4生成响应语句“看起来很麻烦”。上述生成响应语句的方法仅是一个示例,并且该实施例不限于此。可以使用期望的生成方法。响应语句生成单元4将已生成的响应语句输出到语音输出单元5。
语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句。语音输出单元5使用扬声器等向用户输出例如响应语句的语音。
顺便提及,在根据相关技术的语音交互系统中,存在识别语音需要花费时间并且对于未登记的单词不能检测反问的问题。在根据相关技术的语音交互系统中还存在一个问题,即能够被检测为反问的语音仅限于包含感叹词的语音,因此非常有限。
另一方面,当话题检测单元7已经检测到话题中的变化时,根据第一实施例的语音交互系统1基于用户的语音的韵律检测作为用户的反问的用户的语音。
当语音交互的话题中的变化时,用户可能难以听到语音并且反问倾向于容易发生。此外,反问的语音中的韵律发生了特征性的变化。基于该特征,如上所述,在根据第一实施例的语音交互系统1中,当已经检测到话题中的变化时,基于用户的语音的韵律检测作为用户的反问的用户的语音。因此,在不需要如上所述的针对反问的单词预先被登记的情况下,也可以针对宽的不包括感叹词的语音范围上检测反问。
此外,通过基于话题和韵律信息的变化检测反问,不太可能发生处理延迟,并且可以在不依赖于反问的语言和语音识别的准确性的情况下提高检测反问的准确性。
韵律检测单元6是韵律检测装置的一个具体示例。韵律检测单元6分析例如经由麦克风输入的用户的语音的韵律信息,并检测韵律的变化量。当用户的语音时反问时,特征出现在语音的末尾。因此,韵律检测单元6将例如用户语音的结束的预定时段分成两部分,并检测前半部分中语音高度的平均值之间和后半部分中语音高度的平均值之间的差异(或倾斜)作为韵律的变化量。
更具体地,如图2中所示,韵律检测单元6检测用户的语音“去一座山”结束时100毫秒的语音高度的平均值与恰好之前100毫秒的语音高度的平均值之间的差值作为量韵律的变化量。韵律检测单元6将已经检测到的韵律的变化量输出到反问检测单元8。
话题检测单元7是话题检测装置的一个具体示例。话题检测单元7基于由响应语句生成单元4生成的响应语句中出现的单词来估计语音交互的话题。话题检测单元7通过将响应语句中的单词与预先在存储器中设置的表信息进行比较来估计话题。
如图3中所示,在表信息中,包含在各个话题中的话题和单词彼此相关联。话题检测单元7从表信息中的话题中估计包括表信息中的最大数量的单词的话题。当在一个话题中出现的单词的数量与另一话题中出现的数量相同时,话题检测单元7可以估计表信息中的最高顺序话题。
话题检测单元7将例如响应语句“我吃了很多早餐”中的单词“早餐”、“很多”、“吃”与表信息进行比较。话题检测单元7从表信息中的话题“膳食”、“健康”和“家庭”中估计话题“膳食”在表信息中包括最大数量的单词“早餐”、“吃”。在话题检测单元7中估计话题的上述方法仅是示例,并且本实施例不限于此。
话题检测单元7可以基于经由麦克风输入的用户语音中出现的单词来估计语音交互的话题。话题检测单元7通过将用户语音中的单词与预先在存储器中设置的表信息进行比较来估计话题。
如上所述,话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化。例如,当已经估计到话题已经从“膳食”变化为“健康”时,话题检测单元7检测话题中的变化。
反问检测单元8是反问检测装置的一个具体示例。如上所述,当话题检测单元7已经检测到话题中的变化时,反问检测单元8基于用户语音的韵律信息检测作为用户的反问的用户的语音。
当用户的语音是反问时,如图2中所示,韵律的变化量在语音结束时变大。这是因为在反问的情况下,用户像他/她正在问一个问题一样讲话,这使得语音结束时的音调很高。
因此,例如,当由话题检测单元7检测到话题中的变化和由韵律检测单元6检测到的韵律的变化量高即等于或大于预定量时,反问检测单元8检测作为用户的反问的用户的语音。作为预定量的在反问时语音结束时的韵律的变化量预先通过实验获得,并且该预定量被设置在存储器中。当反问检测单元8检测反问时,检测单元8将指示结果的检测信号输出到响应语句生成单元4。
响应语句生成单元4是响应语句生成装置的一个具体示例。当响应语句生成单元4从反问检测单元8接收检测信号时,响应语句生成单元4基于恰好在反问的用户的语音之前输出的响应语句生成针对反问的响应语句。响应语句生成单元4直接重新生成例如恰好在反问的用户的语音之前输出的响应语句作为反问的响应语句。因此,可以容易地生成针对反问的响应语句。
可能的是,当存在用户难以在针对反问的响应语句中听到的单词时,即使重复该响应语句用户可能仍然不能够容易地听到响应语句。
另一方面,当恰好在反问之前响应于用户的响应语句包括在语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由该单词组成的响应语句。
例如,对于恰好在反问之前的响应语句“我去Gifu打高尔夫球”,响应语句生成单元4生成针对反问“高尔夫”的响应语句,其仅由其出现的频率等于或小于第一预定值的单词“高尔夫”组成。
能够估计,在与用户的语音交互的历史(下文中该历史将被称为语音交互历史)中不太可能频繁出现的单词是用户不熟悉的单词,因此是用户难以听到的单词。因此,当恰好在反问之前的响应语句包括在语音交互的历史中的其出现的频率低即等于或小于第一预定值的单词时,响应语句生成单元4生成仅由用户难以听到的单词组成的针对反问的响应语句。因此,通过仅提取和强调用户特别难以听到的单词,用户可以容易地听到该单词。即,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
语音交互历史包括多个语音交互,所述语音交互历史是在用户和语音交互系统1之间执行的语音交互的历史。语音交互历史被顺序存储在存储器等中。例如,预先通过实验获得当确定用户难以听到该单词时作为第一预定值的单词的出现频率,并且该第一预定值被存储在存储器中。
当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成在响应语句中强调该单词的针对反问的响应语句。因此,通过强调和加重用户特别难以听到的单词,用户可以容易地听到该单词变得可能。也就是说,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
响应语句生成单元4使所述单词的语音速度低于恰好在反问之前的响应语句中除了所述单词之外的单词的语音速度。因此,可以在针对反问的响应语句中特别地加重语音速度低的单词并且进一步强调该单词,使得用户将能够容易地听到该单词。
响应语句生成单元4使所述单词的音量大于恰好在反问之前的响应语句中除所述单词之外的单词的音量。因此,可以在针对反问的响应语句中特别地加重音量大的单词并且进一步强调该单词,使得用户将能够容易地听到该单词。通过实验获得用户能够容易地听到该单词的语音速度和音量,并且在存储器中设置该语音速度和音量。
响应语句生成单元4使在恰好在反问之前的响应语句中所述单词和前后单词之间有停顿。因此,可以在针对反问的响应语句中特别加重该单词并进一步强调该单词,使得用户能够容易地听到该单词。
此外,响应语句生成单元4可以通过恰好在反问之前的响应语句中任意组合上述方法来生成针对反问的响应语句。响应语句生成单元4可以生成针对反问的响应语句,其中语音速度和单词的音量低于恰好在反问之前的响应语句中除了该单词之外的单词的语音速度和音量。
响应语句生成单元4将已经生成的针对反问的响应语句输出到语音输出单元5。语音输出单元5通过语音输出由响应语句生成单元4生成的针对反问的响应语句。因此,语音交互系统1能够适当地响应用户的反问。
图4是示出根据本公开的第一实施例的语音交互系统的处理方法的流程的流程图。韵律检测单元6分析经由麦克风输入的用户语音的韵律,并检测韵律的变化量(步骤S101)。
话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化(步骤S102)。当话题检测单元7检测到话题中的变化并且韵律检测单元6检测到的韵律的变化量等于或大于预定量时,反问检测单元8检测作为用户的反问的用户的语音(步骤S103)。
当反问检测单元8已经检测到反问(步骤S103中的“是”)时,响应语句生成单元4生成针对反问的响应语句(步骤S104),将已经生成的响应语句输出到语音输出单元5,然后过程进行到(步骤S110)将在后面解释。
另一方面,当反问检测单元8没有检测到反问(步骤S103中的“否”)时,语音识别单元2基于用户语音的信息执行语音识别处理、将用户语音的信息转换为文本、将其识别为字符串信息以及将已识别的用户语音的信息输出到语法分析单元3(步骤S105)。
语法分析单元3分析由语音识别单元2识别的语音信息的语句结构,并将分析结果输出到响应语句生成单元4(步骤S106)。响应语句生成单元4基于由语法分析单元3分析的语音信息的分析结果,响应于关于用户语音的信息生成响应语句(步骤S107)。语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句(步骤S108)。
如上所述,当话题检测单元7已经检测到话题中的变化时,根据第一实施例的语音交互系统1基于用户的语音的韵律信息检测作为用户的反问的用户的语音。因此,在不需要如上所述的针对反问的单词预先被登记的情况下,也可以检测对宽范围的不包括感叹词的语音的反问。
第二实施例
图5是示出根据本公开的第二实施例的语音交互系统的示意性系统配置的框图。根据第二实施例的语音交互系统20进一步包括学习单元9,其接收用户的语音的韵律信息,输出反问检测,并且机器学习用户的语音的韵律信息与反问检测之间的关系。
学习单元9是学习装置的一个具体示例。学习单元9使用学习数据预先进行学习,在该学习数据中,作为输入的反问时用户的语音的韵律信息和作为输出的反问检测彼此相关联。学习单元9由例如诸如递归神经网络(RNN)的神经网络形成。该RNN在其中间层中包括长短期存储器(LSTM)。学习单元9在反问时执行用户的语音的韵律的变化的学习并捕获其特征,从而可以以更高的准确度检测反问。
上述学习单元9的配置详细公开在例如Towards a General,Continuous Modelof Turn-taking in Spoken Dialogue using LSTM Recurrent Neural Networks(使用LSTM回归神经网络实现口语对话的话轮转换的一般连续模型),Sigdial 2017,其公开内容通过引用结合于此。
学习单元9可以由代替神经网络的诸如支持向量机(SVM)的学习设备组成。
话题检测单元7可以基于由响应语句生成单元4生成的响应语句的单词矢量指定该单词的较高概念词,并估计话题。因此,可以估计未存储在表信息中的未知话题。
上述估计方法在“Jointly Learning Hypernym-Hyponym Relations and theirClusters,Josuke Yamane,Tomoya Takatani,Hitoshi Yamada,Makoto Miwa,and YutakaSasaki,第22届自然语言处理协会年会,B3-4,仙台,2016”中详细公开,其公开内容通过引用并入本文。
存在与用户的交互主要由语音交互系统1进行的情况。在这种情况下,语音交互系统1执行与用户的语音交互的话题被预先设置在语音交互系统1中。因此,话题检测单元7可以估计已经预先设置的语音交互的话题。因此可以明确地估计语音交互的话题。
如上所述,话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化。当话题检测单元7已经检测到话题中的变化、来自韵律检测单元6的用户的语音的韵律信息已经被输入到学习单元9以及学习单元9已经输出反问检测时,反问检测单元8检测作为用户的反问的用户的语音。
图6是示出根据本公开的第二实施例的语音交互系统的处理方法的流程的流程图。学习单元9使用学习数据执行学习,在学习数据中在再次检测时用户的语音的韵律信息与反问检测彼此相关联(步骤S201)。
韵律检测单元6分析经由麦克风输入的用户的语音的韵律,并检测韵律信息(韵律的变化量等)(步骤S202)。话题检测单元7基于由响应语句生成单元4生成的响应语句的单词矢量,指定该单词的较高概念词,估计话题,并检测已经估计的话题的变化(步骤S203)。
用户的语音的韵律信息从韵律检测单元6输入到学习单元9(步骤S204)。当话题检测单元7已经检测到话题的变化并且学习单元9已经输出反问检测时,反问检测单元8检测作为用户的反问的用户的语音(步骤S205)。
当反问检测单元8已经检测到反问(步骤S205中的“是”)时,响应语句生成单元4生成针对反问的响应语句(步骤S206),将已经生成的响应语句输出到语音输出单元5,然后过程进行到将在后面解释的(步骤S210)。
当反问检测单元8没有检测到反问(步骤S205中的“否”)时,语音识别单元2基于用户的语音的信息执行语音识别处理,将用户的语音的信息转换为文本,识别字符串信息,以及将已识别的用户的语音的信息输出到语法分析单元3(步骤S207)。
语法分析单元3分析由语音识别单元2识别的语音信息的语句结构,并将分析结果输出到响应语句生成单元4(步骤S208)。响应语句生成单元4基于由语法分析单元3分析的语音信息的语句结构,响应于用户的语音的信息,生成响应语句(步骤S209)。语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句(步骤S210)。
虽然上面已经描述了本公开的一些实施例,但是这些实施例是作为示例呈现的,并不旨在限制本公开的范围。这些新颖的实施例能够以其他各种形式实现,并且在不脱离本公开的精神的情况下,可以进行各种类型的省略、替换或变化。落入本公开的范围和精神内的这些实施例及其修改包括在权利要求中提供的公开内容及其等同物的范围内。
本公开能够通过使CPU执行计算机程序来实现例如图4和图6中所示的处理。
使用任何类型的非暂时性计算机可读介质能够存储(一个或多个)程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如,软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、光盘只读存储器(CD-ROM)、CD-R、CD-R/W和半导体存储器(诸如,掩模ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、闪存ROM和随机存取存储器(RAM)等)。
此外,使用任何类型的暂时性计算机可读介质可以将(一个或多个)程序提供给计算机。暂时性计算机可读介质的示例包括电信号、光信号和电磁波。暂时性计算机可读介质经由有线通信线路(例如,电线和光纤)或无线通信线路能够将程序提供给计算机。
从如此描述的公开内容中,显而易见的是,本公开的实施例可以以多种方式变化。不应将这些变化视为脱离本公开的精神和范围,并且对于本领域技术人员显而易见的所有这些修改旨在包括在所附权利要求的范围内。
Claims (6)
1.一种执行与用户的语音交互的语音交互系统,所述系统包括:
话题检测装置,所述话题检测装置用于估计所述语音交互的话题并且检测被估计出的所述话题的变化;以及
反问检测装置,所述反问检测装置用于:当由所述话题检测装置检测到所述话题的变化时,基于所述用户的语音的韵律信息来检测作为所述用户的反问的所述用户的语音。
2.根据权利要求1所述的语音交互系统,进一步包括:
韵律检测装置,所述韵律检测装置用于分析所述用户的语音的所述韵律信息并且检测所述韵律的变化量,
其中,当由所述话题检测装置检测到所述话题的变化并且由所述韵律检测装置检测到的所述韵律的变化量等于或大于预定量时,所述反问检测装置检测作为所述用户的反问的所述用户的语音。
3.根据权利要求1所述的语音交互系统,包括:
学习装置,所述学习装置用于接收所述韵律信息并且输出反问检测,以及对所述韵律信息和所述反问检测之间的关系进行机器学习,
其中,当由所述话题检测装置检测到所述话题的变化,以及由所述学习装置接收到所述用户的语音的所述韵律信息并且所述学习装置输出了所述反问检测时,所述反问检测装置检测作为所述用户的反问的所述用户的语音。
4.根据权利要求1至3中任一项所述的语音交互系统,进一步包括:
响应语句生成装置,所述响应语句生成装置用于:当由所述反问检测装置检测到所述反问时,基于在所述反问之前的响应于所述用户的响应语句,响应于所述反问来生成针对所述反问的响应语句,
其中,当所述响应语句包含有在与所述用户的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,所述响应语句生成装置生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
5.一种用于执行与用户的语音交互的语音交互系统的处理方法,所述方法包括以下步骤:
估计所述语音交互的话题,并且检测被估计出的所述话题的变化;以及
当检测到所述话题的变化时,基于所述用户的语音的韵律信息,来检测作为所述用户的反问的所述用户的语音。
6.一种计算机可读介质,所述计算机可读介质存储有用于执行与用户的语音交互的语音交互系统的程序,所述程序使计算机执行以下处理:
估计所述语音交互的话题,并且检测被估计出的所述话题的变化;以及
当检测到所述话题的变化时,基于所述用户的语音的韵律信息,来检测作为所述用户的反问的所述用户的语音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104982A JP7151181B2 (ja) | 2018-05-31 | 2018-05-31 | 音声対話システム、その処理方法及びプログラム |
JP2018-104982 | 2018-05-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634479A CN110634479A (zh) | 2019-12-31 |
CN110634479B true CN110634479B (zh) | 2023-02-28 |
Family
ID=68694137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910411917.3A Active CN110634479B (zh) | 2018-05-31 | 2019-05-17 | 语音交互系统、其处理方法以及其程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11270691B2 (zh) |
JP (1) | JP7151181B2 (zh) |
CN (1) | CN110634479B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6481643B2 (ja) * | 2016-03-08 | 2019-03-13 | トヨタ自動車株式会社 | 音声処理システムおよび音声処理方法 |
JP7142315B2 (ja) * | 2018-09-27 | 2022-09-27 | パナソニックIpマネジメント株式会社 | 説明支援装置および説明支援方法 |
US11250853B2 (en) | 2020-04-30 | 2022-02-15 | Robert Bosch Gmbh | Sarcasm-sensitive spoken dialog system |
WO2024071921A1 (ko) * | 2022-09-30 | 2024-04-04 | 삼성전자 주식회사 | 인공지능과 음성 인식을 기반으로 동작하는 전자 장치 및 이의 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001272991A (ja) * | 2000-03-24 | 2001-10-05 | Sanyo Electric Co Ltd | 音声対話方法及び音声対話装置 |
JP2001331191A (ja) * | 2000-05-23 | 2001-11-30 | Sharp Corp | 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体 |
JP2004334228A (ja) * | 2004-06-07 | 2004-11-25 | Denso Corp | 単語列認識装置 |
CN101192405A (zh) * | 2006-12-01 | 2008-06-04 | 索尼株式会社 | 语音处理设备、语音处理方法和语音处理程序 |
CN103003876A (zh) * | 2010-07-16 | 2013-03-27 | 国际商业机器公司 | 修改经由声音通道的对话中的语音质量 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Kabushiki Kaisha Toshiba, Kawasaki | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
US20070294229A1 (en) * | 1998-05-28 | 2007-12-20 | Q-Phrase Llc | Chat conversation methods traversing a provisional scaffold of meanings |
US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
US6731307B1 (en) * | 2000-10-30 | 2004-05-04 | Koninklije Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
US20050283473A1 (en) * | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
WO2007121570A1 (en) * | 2006-04-20 | 2007-11-01 | Iq Life, Inc. | Interactive patient monitoring system using speech recognition |
US20070260450A1 (en) * | 2006-05-05 | 2007-11-08 | Yudong Sun | Indexing parsed natural language texts for advanced search |
JP4353212B2 (ja) | 2006-07-20 | 2009-10-28 | 株式会社デンソー | 単語列認識装置 |
US9014365B1 (en) * | 2007-06-06 | 2015-04-21 | United Services Automobile Association (Usaa) | Systems and methods for state information exchange |
US20090210411A1 (en) * | 2008-02-15 | 2009-08-20 | Oki Electric Industry Co., Ltd. | Information Retrieving System |
JP2010197858A (ja) | 2009-02-26 | 2010-09-09 | Gifu Univ | 音声対話システム |
JP5382780B2 (ja) | 2009-03-17 | 2014-01-08 | 株式会社国際電気通信基礎技術研究所 | 発話意図情報検出装置及びコンピュータプログラム |
US9634855B2 (en) * | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US9493130B2 (en) * | 2011-04-22 | 2016-11-15 | Angel A. Penilla | Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input |
US20130325447A1 (en) * | 2012-05-31 | 2013-12-05 | Elwha LLC, a limited liability corporation of the State of Delaware | Speech recognition adaptation systems based on adaptation data |
KR102056461B1 (ko) * | 2012-06-15 | 2019-12-16 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 제어 방법 |
JP6073649B2 (ja) | 2012-11-07 | 2017-02-01 | 株式会社日立システムズ | 音声自動認識・音声変換システム |
JP6221301B2 (ja) * | 2013-03-28 | 2017-11-01 | 富士通株式会社 | 音声処理装置、音声処理システムおよび音声処理方法 |
US10726831B2 (en) | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US9519634B2 (en) * | 2014-05-30 | 2016-12-13 | Educational Testing Service | Systems and methods for determining lexical associations among words in a corpus |
JP2016061970A (ja) | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声対話装置、方法およびプログラム |
US10395552B2 (en) * | 2014-12-19 | 2019-08-27 | International Business Machines Corporation | Coaching a participant in a conversation |
JP6601069B2 (ja) * | 2015-09-01 | 2019-11-06 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2017049471A (ja) * | 2015-09-03 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
JP6851871B2 (ja) * | 2016-03-30 | 2021-03-31 | 光吉 俊二 | 意思創発装置、意思創発方法および意思創発プログラム |
WO2017200078A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
US10049263B2 (en) * | 2016-06-15 | 2018-08-14 | Stephan Hau | Computer-based micro-expression analysis |
US9875740B1 (en) * | 2016-06-20 | 2018-01-23 | A9.Com, Inc. | Using voice information to influence importance of search result categories |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
JP6731326B2 (ja) * | 2016-10-31 | 2020-07-29 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
US20180133900A1 (en) * | 2016-11-15 | 2018-05-17 | JIBO, Inc. | Embodied dialog and embodied speech authoring tools for use with an expressive social robot |
JP6785473B2 (ja) * | 2016-12-27 | 2020-11-18 | パナソニックIpマネジメント株式会社 | 戸装置の施工方法及び戸装置取付構造 |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
CN107030691B (zh) * | 2017-03-24 | 2020-04-14 | 华为技术有限公司 | 一种看护机器人的数据处理方法及装置 |
JP2019057123A (ja) * | 2017-09-21 | 2019-04-11 | 株式会社東芝 | 対話システム、方法、及びプログラム |
US10824595B1 (en) * | 2017-10-09 | 2020-11-03 | United Services Automobile Services (USAA) | Personalized user interface systems and methods |
JP6943158B2 (ja) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
EP3752957A4 (en) * | 2018-02-15 | 2021-11-17 | DMAI, Inc. | SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION |
US20190371318A1 (en) * | 2018-02-15 | 2019-12-05 | DMAI, Inc. | System and method for adaptive detection of spoken language via multiple speech models |
US10497366B2 (en) * | 2018-03-23 | 2019-12-03 | Servicenow, Inc. | Hybrid learning system for natural language understanding |
US11018997B2 (en) * | 2018-04-12 | 2021-05-25 | Disney Enterprises, Inc. | Systems and methods for maintaining a conversation |
JP7059813B2 (ja) | 2018-05-31 | 2022-04-26 | トヨタ自動車株式会社 | 音声対話システム、その処理方法及びプログラム |
-
2018
- 2018-05-31 JP JP2018104982A patent/JP7151181B2/ja active Active
-
2019
- 2019-05-17 CN CN201910411917.3A patent/CN110634479B/zh active Active
- 2019-05-29 US US16/425,031 patent/US11270691B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001272991A (ja) * | 2000-03-24 | 2001-10-05 | Sanyo Electric Co Ltd | 音声対話方法及び音声対話装置 |
JP2001331191A (ja) * | 2000-05-23 | 2001-11-30 | Sharp Corp | 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体 |
JP2004334228A (ja) * | 2004-06-07 | 2004-11-25 | Denso Corp | 単語列認識装置 |
CN101192405A (zh) * | 2006-12-01 | 2008-06-04 | 索尼株式会社 | 语音处理设备、语音处理方法和语音处理程序 |
CN103003876A (zh) * | 2010-07-16 | 2013-03-27 | 国际商业机器公司 | 修改经由声音通道的对话中的语音质量 |
Also Published As
Publication number | Publication date |
---|---|
JP7151181B2 (ja) | 2022-10-12 |
US11270691B2 (en) | 2022-03-08 |
JP2019211515A (ja) | 2019-12-12 |
US20190371302A1 (en) | 2019-12-05 |
CN110634479A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634479B (zh) | 语音交互系统、其处理方法以及其程序 | |
US10452352B2 (en) | Voice interaction apparatus, its processing method, and program | |
KR102161579B1 (ko) | 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 | |
US10388279B2 (en) | Voice interaction apparatus and voice interaction method | |
CN110556105B (zh) | 语音交互系统、其处理方法及其程序 | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
US11688416B2 (en) | Method and system for speech emotion recognition | |
JP6341092B2 (ja) | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 | |
US8150692B2 (en) | Method and apparatus for recognizing a user personality trait based on a number of compound words used by the user | |
US10573307B2 (en) | Voice interaction apparatus and voice interaction method | |
WO2020238209A1 (zh) | 音频处理的方法、系统及相关设备 | |
CN111128223A (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN111583912A (zh) | 语音端点检测方法、装置以及电子设备 | |
JP5506738B2 (ja) | 怒り感情推定装置、怒り感情推定方法およびそのプログラム | |
EP2988298B1 (en) | Response generation method, response generation apparatus, and response generation program | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
KR20210000802A (ko) | 인공지능 음성 인식 처리 방법 및 시스템 | |
CN113689886A (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
CN112151073B (zh) | 一种语音处理方法、系统、设备及介质 | |
WO2016009634A1 (ja) | 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体 | |
CN117219118A (zh) | 音频质检的方法及系统 | |
CN113763921A (zh) | 用于纠正文本的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |