CN110556105B - 语音交互系统、其处理方法及其程序 - Google Patents

语音交互系统、其处理方法及其程序 Download PDF

Info

Publication number
CN110556105B
CN110556105B CN201910450497.XA CN201910450497A CN110556105B CN 110556105 B CN110556105 B CN 110556105B CN 201910450497 A CN201910450497 A CN 201910450497A CN 110556105 B CN110556105 B CN 110556105B
Authority
CN
China
Prior art keywords
response sentence
question
word
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910450497.XA
Other languages
English (en)
Other versions
CN110556105A (zh
Inventor
渡部生圣
樋口佐和
加来航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN110556105A publication Critical patent/CN110556105A/zh
Application granted granted Critical
Publication of CN110556105B publication Critical patent/CN110556105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音交互系统、其处理方法及其程序。一种执行与用户的语音交互的语音交互系统。所述语音交互系统包括:反问检测装置,其用于检测用户的反问;响应语句生成装置,其用于当反问检测装置已经检测到反问时,响应于反问,基于在所述反问之前的响应于所述用户的响应语句,生成针对反问的响应语句;以及,存储装置,其用于存储与用户的语音交互的历史。当响应语句包含有在存储装置中的语音交互的历史中出现的其频率等于或小于第一预定值的单词时,响应语句生成装置生成仅由该单词形成的针对反问的响应语句或生成在响应语句中强调该单词的针对反问的响应语句。

Description

语音交互系统、其处理方法及其程序
技术领域
本公开涉及一种执行与用户的语音交互的语音交互系统、其处理方法及其程序。
背景技术
已知一种语音交互系统,当检测到来自用户的反问(参见“反问”的解释)时,输出响应语句,所述响应语句与所述反问之前的响应语句相同(参见日本专利No.6073649)。
在上述语音交互系统中,有可能的是,当存在用户难以在响应语句中听到的单词时,即使当重复该响应语句时,用户仍不能容易地听到该响应语句。
发明内容
本公开是为了解决上述问题而做出的,并且本公开的主要目的是提供一种语音交互系统、其处理方法及其程序,所述系统在检测到来自用户的反问时输出用户能够容易地听到的响应语句。
实现上述目的的本公开的一个方面是一种执行与用户的语音交互的语音交互系统,该系统包括:
反问检测装置,其用于检测用户的反问;
响应语句生成装置,其用于当反问装置已经检测到反问时,响应于反问,基于在所述反问之前的响应于所述用户的响应语句,生成针对反问的响应语句;以及
存储装置,其用于存储与用户的语音交互的历史,
其中,当响应语句包含有在存储装置中的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成装置生成仅由该单词形成的针对反问的响应语句或生成在响应语句中强调该单词的针对反问的响应语句。
在这方面中,当响应语句包含有在存储装置中的语音交互的历史中的其出现的频率最小的单词时,响应语句生成装置可以生成仅由该单词形成的针对反问的响应语句或生成在响应语句中强调该单词的针对反问的响应语句。
在这方面中,当响应语句包含有在存储装置中的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成装置可以生成其中该单词的语音速度低于除了该单词以外的单词的语音速度的针对反问的响应语句、其中该单词的音量高于除了该单词以外的单词的音量的针对反问的响应语句、以及其中在该单词和前后单词之间形成间隔的针对反问的响应语句中的至少一个。
在这方面中,当响应语句包含有在存储装置中的语音交互的历史中的其出现的频率等于或小于第一预定值并且重要程度等于或大于第二预定值的单词时,响应语句生成装置可以生成仅由所述单词形成的针对反问的响应语句或生成在该响应语句中强调所述单词的针对反问的响应语句。
在这方面中,语音交互系统可以进一步包括话题检测装置,其用于估计语音交互的话题并检测已估计的话题的变化,
其中,当话题检测装置检测到话题的变化时,反问检测装置可以基于用户的语音的韵律信息来将用户的语音检测作为用户的反问。
在这方面中,语音交互系统可以进一步包括韵律检测装置,其用于分析用户的语音的韵律信息并检测韵律的变化量,
其中,当话题检测装置已经检测到话题的变化并且由韵律检测装置检测到的韵律的变化量等于或大于预定量时,反问检测装置可以将用户的语音检测作为用户的反问。
实现上述目的的本公开的一个方面可以是用于执行与用户的语音交互的语音交互系统的处理方法,该方法包括以下步骤:
检测用户的反问;
当已经检测到反问时,响应于反问,基于在所述反问之前的响应于用户的响应语句,生成针对反问的响应语句;以及
当响应语句包括在与用户的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,生成仅由该单词形成的针对反问的响应语句或生成在响应语句中强调该单词的针对反问的响应语句。
实现上述目的的本公开的一个方面可以是用于执行与用户的语音交互的语音交互系统的程序,该程序使计算机执行以下处理:
检测用户的反问;以及
当已经检测到反问时,响应于反问,基于在反问之前的响应于用户的响应语句,生成针对反问的响应语句,
其中,当响应语句包含有在与用户的语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,生成仅由该单词形成的针对反问的响应语句或生成在响应语句中强调该单词的针对反问的响应语句。
根据本公开,可以提供一种在检测到用户的反问时能够输出用户能够容易地听到的响应语句的语音交互系统、其处理方法及其程序。
从以下给出的详细描述和附图中将更全面地理解本公开的上述和其他目的、特征和优点,附图仅以说明的方式给出,因此不应被视为限制本公开。
附图说明
图1是示出根据本公开的第一实施例的语音交互系统的示意性系统配置的框图;
图2是示出根据本公开的第一实施例的语音交互系统的处理方法的流程的流程图;以及
图3是示出语音交互历史和TF-IDF中的每个单词的出现的频率的一个示例的示意图。
具体实施方式
第一实施例
在下文中,参考附图,将解释本公开的实施例。
图1是示出根据本公开的第一实施例的语音交互系统的示意性系统配置的框图。根据第一实施例的语音交互系统1安装在,例如机器人、个人计算机(PC)、移动终端(诸如,智能电话或平板计算机)、导航设备等中,并且执行与用户的对话。
在当用户与语音交互系统1进行语音交互时用户可能无法听到语音交互系统1的语音的情况下,用户反问,例如,“你能再次重复吗?”(以下将该用户的动作称为反问)。当根据第一实施例的语音交互系统1通过用户的语音检测到反问时,语音交互系统1输出响应于反问用户能够容易地听到的响应语句。
根据第一实施例的语音交互系统1包括被配置为识别用户的语音的语音识别单元2、被配置为分析语音的语句结构的句法分析单元3、被配置为响应于用户的语音生成响应语句的响应语句生成单元4、被配置为输出语音的语音输出单元5、被配置为检测用户的语音的韵律的变化量的韵律检测单元6、被配置为检测话题的变化的话题检测单元7、被配置为检测用户的反问的反问检测单元8以及存储单元9。
注意,语音交互系统1由,例如主要使用微计算机的硬件形成,所述微计算机包括执行算术处理等的中央处理单元(CPU)、由只读存储器(ROM)和随机存取存储器(RAM)组成并存储由CPU等执行的算术程序的存储器、外部接收和输出信号的接口单元(I/F)等。CPU、存储器和接口单元通过数据总线等彼此连接。
语音识别单元2基于通过麦克风输入的用户的语音的信息执行语音识别过程,将用户的语音的信息转换为文本,从而将其识别为字符串信息。
例如,语音识别单元2将通过麦克风输入的用户的语音的信息转换为数字信号。语音识别单元2通过从上述数字化信息中检测语音部分执行语音识别并通过参考统计语言模型等对检测到的语音部分中的语音信息执行模式匹配。
注意,统计语言模型是,例如,用于计算语言表达的发生概率(诸如单词的出现分布和在某个单词之后出现的单词的分布)的概率模型,并且通过以语素为基础的学习连接概率获得。统计语言模型预先存储在存储单元9等中。存储单元9是存储装置的一个特定示例。存储单元9由存储器等形成。
语音识别单元2为用户的语音信息中的每个语素生成添加部分信息的语素信息,即,通过给每个语素添加部分的类型(诸如名词、形容词、动词、形容词等)而获得的信息。语音识别单元2将识别的用户的语音信息输出到句法分析单元3。
句法分析单元3分析由语音识别单元2识别的语音信息的语句结构。例如,句法分析单元3通过使用普通语素分析器对表示语音地识别的用户的语音信息的字符串信息执行语素分析等以及对字符串信息执行语义分析。句法分析单元3将字符串信息的分析结果(包括语素信息、修改信息、通过识别获得的文本等)输出到响应语句生成单元4。
响应语句生成单元4是响应语句生成装置的一个特定示例。响应语句生成单元4基于由句法分析单元3分析的语音信息的分析结果,生成对用户的语音信息的响应语句。
例如,响应语句生成单元4基于从句法分析单元3输出的字符串信息的分析结果,生成对用户的语音信息的响应语句。更具体地,响应语句生成单元4从字符串信息“我下围棋”中提取一个谓语项“下围棋”。句法分析单元3使用提取的语素串“下围棋”作为特征向量并使用支持向量机(SVM)模型来执行情绪辨别(消极和积极)。
当情绪辨别的结果是积极的时,响应语句生成单元4生成响应语句“听起来不错”。另一方面,当情绪辨别的结果是消极的时,响应语句生成单元4生成响应句“看起来有麻烦”。上述生成响应语句的方法仅是一个示例,并且该实施例不限于此。可以使用期望的生成方法。响应语句生成单元4将已生成的响应语句输出到语音输出单元5。
语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句。语音输出单元5使用扬声器等向用户输出,例如响应语句的语音。
当语音交互的话题变化时,用户可能难以听到语音并且倾向于容易发生反问。此外,反问的语音中的韵律发生了特征性的变化。基于反问的这一特征,在根据第一实施例的语音交互系统1中,当已经检测到话题的变化时,基于用户的语音的韵律信息再次检测用户的语音作为用户的反问。
因此,在不需要提前登记反问的单词的情况下,可以也对于不包括感叹词的宽范围的语音检测反问。此外,通过基于话题和韵律信息的变化检测反问,不太可能发生处理延迟,并且可以在不依赖于反问的语言和语音识别的准确性的情况下改进检测反问的准确性。
韵律检测单元6是韵律检测装置的一个具体示例。韵律检测单元6分析,例如经由麦克风输入的用户的语音的韵律信息,并检测韵律的变化量。当用户的语音为反问时,特征会出现在语音的末尾。因此,韵律检测单元6将,例如用户的语音的结束的预先确定的时段分成两部分,并检测前半部分中语音高度的平均值和后半部分中语音高度的平均值之间的差异(或倾斜)作为韵律的变化量。
更具体地,韵律检测单元6检测用户的语音结束时100毫秒的语音高度的平均值与恰好之前100毫秒的语音高度的平均值之间的差值作为韵律的变化量。韵律检测单元6将已经检测到的韵律的变化量输出到反问检测单元8。
话题检测单元7是话题检测装置的一个具体示例。话题检测单元7基于由响应语句生成单元4生成的响应语句中出现的单词(独立单词)来估计语音交互的话题。
话题检测单元7通过将响应语句中的单词与预先在存储单元9中设置的表信息进行比较来估计话题。包含在各个话题中的话题和单词在表信息中彼此相关联。话题检测单元7从表信息中的话题中估计包括表信息中的最大数量的单词的话题。当在一个话题中出现的单词的数量与另一话题中出现的数量相同时,话题检测单元7可以估计表信息中的最高阶话题。
话题检测单元7将,例如响应语句“我吃了很多早餐”中的单词“早餐”、“很多”、“吃”与表信息进行比较。话题检测单元7从表信息中的话题“一顿饭”、“健康”和“家庭”之中估计包括在表信息中的最大数量的单词“早餐”、“吃”的话题“一顿饭”。在话题检测单元7中估计话题的上述方法仅是示例,并且本实施例不限于此。
话题检测单元7可以基于经由麦克风输入的用户的语音中出现的单词来估计语音交互的话题。话题检测单元7通过将用户的语音中的单词与预先在存储单元9中设置的表信息进行比较来估计话题。
如上所述,话题检测单元7估计语音交互的话题并检测已经估计的话题中的变化。例如,当已经估计到话题已经从“一顿饭”变化为“健康”时,话题检测单元7检测话题的变化。
反问检测单元8是反问检测装置的一个具体示例。如上所述,当话题检测单元7已经检测到话题的变化时,反问检测单元8基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
当用户的语音是反问时,韵律的变化量在语音结束时变大。这是因为在反问的情况下,用户像他/她正在问一个问题一样讲话,这使得语音结束时的音调高。
因此,例如,当由话题检测单元7检测到话题的变化和由韵律检测单元6检测到的韵律的变化量高(即,等于或大于预定量)时,反问检测单元8检测作为用户的反问的用户的语音。作为预定量的在反问时语音结束时的韵律的变化量预先通过实验获得,并且该预定量被设置在存储单元9中。当反问检测单元8检测反问时,反问检测单元8将指示结果的检测信号输出到响应语句生成单元4。
顺便提及,在根据现有技术的语音交互系统中,可能的是,当存在用户难以在针对反问的响应语句中听到的单词时,即使重复该响应语句用户可能仍然不能够容易地听到响应语句。
另一方面,在根据第一实施例的语音交互系统1中,当对应于用户的恰好在反问之前的响应语句包括在语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由该单词形成的响应语句。
例如,对于恰好在反问之前的响应语句“我去岐阜(Gifu)打高尔夫球”,响应语句生成单元4生成针对反问“高尔夫”的响应语句,其仅由其出现的频率等于或小于第一预定值的单词“高尔夫”形成。
能够估计,在与用户的语音交互的历史(下文中该历史将被称为语音交互历史)中不太可能频繁出现的单词是用户不熟悉的单词,因此是用户难以听到的单词。因此,当恰好在反问之前的响应语句包括在语音交互的历史中的其出现的频率低,即等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由用户难以听到的单词形成的响应语句。因此,通过仅提取和强调用户特别难以听到的单词,用户可以容易地听到该单词变得可能。即,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
语音交互历史包括多个语音交互,所述语音交互历史是在用户和语音交互系统1之间执行的语音交互的历史。语音交互历史被顺序存储在存储单元9等中。例如,当确定用户难以听到该单词时,作为第一预定值的单词的出现的频率被预先通过实验获得,并且该第一预定值被存储在存储单元9中。
关于上述针对反问的仅由其出现的频率为第一预定值或更小的单词形成的响应语句,可以向该单词添加附加单词。响应语句生成单元4响应于在反问“我去岐阜打高尔夫球”之前的响应语句,可以生成,例如针对反问的响应语句“它是高尔夫球”,其通过将附加单词“它是”添加到其出现的频率等于或小于第一预定值的单词“高尔夫”而获得。可以预先在存储单元9中设置添加到上述单词的附加单词。
此外,响应语句生成单元4可以生成针对反问的响应语句,其中出现的频率等于或小于第一预定值的单词被重复多次。例如,响应语句生成单元4可以响应于在反问“我去岐阜打高尔夫球”之前的响应语句生成用于反问的仅由其出现的频率等于或小于第一预定值的单词“高尔夫”形成的响应语句“高尔夫高尔夫”。以这种方式,通过将附加单词添加到单词或多次重复单词,用户能够更容易地听到该单词。
当响应语句生成单元4从反问检测单元8接收检测信号时,响应语句生成单元4基于反问之前的响应语句生成针对反问的响应语句。
当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由该单词形成的响应语句。
另一方面,当恰好在反问之前的响应语句不包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4重新生成作为针对反问的响应语句的响应语句。
响应语句生成单元4将已经生成的针对反问的响应语句输出到语音输出单元5。语音输出单元5通过语音输出由响应语句生成单元4生成的针对反问的响应语句。因此,可以适当地响应用户的反问。
图2是示出根据本公开的第一实施例的语音交互系统的处理方法的流程的流程图。韵律检测单元6分析经由麦克风输入的用户的语音的韵律,并检测韵律的变化量(步骤S101)。
话题检测单元7估计语音交互的话题并检测已经估计的话题的变化(步骤S102)。当话题检测单元7检测到话题的变化并且韵律检测单元6检测到的韵律的变化量等于或大于预定量时,反问检测单元8检测作为用户的反问的用户的语音(步骤S103)。
当反问检测单元8已经检测到反问(步骤S103中的“是”)时,响应语句生成单元4确定恰好在反问之前的响应语句是否包括在语音交互历史中其出现的频率等于或小于第一预定值的单词(步骤S104)。
当响应语句生成单元4确定恰好在反问之前的响应语句包括语音交互历史中其出现的频率等于或小于第一预定值的单词(步骤S104中的“是”)时,响应语句生成单元4生成针对反问的仅由该单词形成的响应语句(步骤S105),将已生成的响应语句输出到语音输出单元5,然后过程进行到(步骤S110),其将在后面加以解释。
另一方面,当响应语句生成单元4确定恰好在反问之前的响应语句不包括在语音交互历史中其出现的频率等于或小于第一预定值的单词(步骤S104中的“否”)时,响应语句生成单元4重新生成作为反问的响应语句的恰好在反问之前的响应语句(步骤S106),将已生成的响应语句输出到语音输出单元5,然后过程进行到(步骤S110),其将在后面加以解释。
当反问检测单元8没有检测到反问(步骤S103中的“否”)时,语音识别单元2基于用户的语音的信息执行语音识别处理、将用户的语音的信息转换为文本、将其识别为字符串信息以及将已识别的用户的语音的信息输出到句法分析单元3(步骤S107)。
句法分析单元3分析由语音识别单元2识别的语音信息的语句结构,并将分析结果输出到响应语句生成单元4(步骤S108)。响应语句生成单元4基于由句法分析单元3分析的语音信息的分析结果,响应于关于用户的语音的信息生成响应语句(步骤S109)。语音输出单元5通过语音输出由响应语句生成单元4生成的响应语句(步骤S110)。
如上所述,在根据第一实施例的语音交互系统1中,当对应于用户的恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由该单词形成的响应语句。因此,通过仅提取和强调用户特别难以听到的单词,用户可以容易地听到该单词变得可能。也就是说,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
第二实施例
在上述第一实施例中,当对应于用户的恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的仅由该单词形成的响应语句。另一方面,在本公开的第二实施例中,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值的单词时,响应语句生成单元4生成针对反问的在响应语句中强调该单词的响应语句。
因此,通过强调和加重用户特别难以听到的单词,用户可以容易地听到该单词变得可能。也就是说,当检测到用户的反问时,可以生成并输出用户能够容易地听到的响应语句。
例如,响应语句生成单元4生成针对反问的响应语句,其中所述单词的语音速度低于恰好在反问之前的响应语句中除了所述单词之外的单词的语音速度。因此,可以在针对反问的响应语句中特别地加重语音速度低的单词并且进一步强调该单词,使得用户将能够容易地听到该单词。
响应语句生成单元4生成针对反问的响应语句,其中所述单词的音量大于恰好在反问之前的响应语句中除所述单词之外的单词的音量。因此,可以在针对反问的响应语句中特别地加重音量大的单词并且进一步强调该单词,使得用户将能够容易地听到该单词。通过实验获得用户能够容易地听到该单词的语音速度和音量,并且在存储单元9中设置该语音速度和音量。
响应语句生成单元4在恰好在反问之前的响应语句中生成针对反问的响应语句,其中在所述单词和前后单词之间形成间隔。因此,可以在针对反问的响应语句中特别加重该单词并进一步强调该单词,使得用户能够容易地听到该单词。
此外,响应语句生成单元4可以通过恰好在反问之前的响应语句中任意组合上述方法来生成针对反问的响应语句。响应语句生成单元4可以生成例如针对反问的响应语句,其中语音速度和单词的音量低于恰好在反问之前的响应语句中除了该单词之外的单词的语音速度和音量。在第二实施例中,与第一实施例中的部分相同的部分由相同的附图标记表示,并且将省略其详细描述。
第三实施例
在本公开的第三实施例中,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率最低的单词时,响应语句生成单元4生成针对反问的仅由所述单词形成的响应语句或生成针对反问的在该响应语句中仅强调所述单词的响应语句。
能够估计,在语音交互历史中其出现的频率最低的单词是用户不熟悉的单词,因此是用户最难听到的单词。因此,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率最低的单词时,响应语句生成单元4生成针对反问的仅由对于用户来说难以听到的单词形成的响应语句或针对反问的其中仅强调对于用户来说难以听到的单词的响应语句。因此,可以加重对于用户最难听到的单词,使得用户能够容易地听到该单词。
假设一种情况,其中,例如,语音交互历史中每个单词的出现的频率是岐阜:15次、高尔夫:0次,去:52次,并且恰好在反问之前的响应语句是“我去岐阜打高尔夫”。
在这种情况下,响应语句生成单元4确定恰好在反问之前的响应语句“我去岐阜打高尔夫”包括其在语音交互历史中其出现的频率最低的单词,即,“高尔夫”。响应语句生成单元4生成针对反问的仅由单词“高尔夫”形成的响应语句或针对反问的在响应语句中强调单词“高尔夫”的响应语句。
在第三实施例中,与第一实施例和第二实施例中相同的部分用相同的参考符号表示,并且将省略其详细描述。
第四实施例
在根据本公开的第四实施例中,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值并且其重要程度等于或大于第二预定值的单词时,响应语句生成单元4生成针对反问的仅由所述单词形成的响应语句或生成针对反问的在该响应语句中强调所述单词的响应语句。
能够估计,在语音交互历史中其出现的频率低(低是等于或小于第一预定值)的单词,是用户不熟悉的单词,并且因此是用户难以听到的单词。此外,当该单词的重要程度高,高是等于或大于第二预定值时,能够估计该单词不仅难以听到而且重要(通常使用)。
因此,如上所述,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率低,即,等于或低于第一预定值并且其重要程度高,即,等于或高于第二预定值的单词时,响应语句生成单元4生成针对反问的仅由所述单词形成的响应语句或生成针对反问的在该响应语句中强调所述单词的响应语句。因此,可以加重用户特别难以听到的重要单词,使得用户能够容易地听到该单词。
当,例如语音交互历史很少时,语音交互历史中每个单词的出现的频率自然变低。在这种情况下,可能的是不常用的单词(通常不使用的单词)以及用户不熟悉的单词的出现的频率可能变得等于或小于第一预定值。因此,如上所述,响应语句生成单元4在恰好在反问之前的响应语句中提取在语音交互历史中其出现的频率等于或小于第一预定值并且其重要度为第二预定值或更大的单词。因此,可以仅提取用户不熟悉的单词并加重该单词,使得用户能够容易地听到该单词。
作为第二预定值,预先通过实验获得的最佳值,例如,存储在存储单元9中。
重要程度是,例如术语频率-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)。使用以下表达式计算TF-IDF。
TF=(语音交互中单词X的出现的频率)/(语音交互中所有单词的出现的频率的和)
IDF=log{(语音交互历史中包含的所有语音交互的数量)/(包括单词X的语音交互的数量)}
TF-IDF=TF×IDF
例如,当恰好在反问之前的响应语句包括语音交互历史中其出现的频率等于或小于第一预定值(10次)并且其TF-IDF等于或大于第二预定值(0.3)的单词时,响应语句生成单元4生成针对反问的仅由所述单词形成的响应语句或生成针对反问的在该响应语句中强调所述单词的响应语句。
假设用户能够经由输入装置等任意设置上述第一预定值和第二预定值。
假设一种情况,其中语音交互历史中的每个单词的出现的频率和TF-IDF是,例如如图3所示的值,并且恰好在反问之前的响应语句是“我在岐阜遇见了花子(Hanako)”。
响应语句生成单元4确定恰好在反问之前的响应语句“我在岐阜遇见了花子”包括单词“花子”,在语音交互历史中其出现的频率是10次或更低并且其TF-IDF是0.3或更大。响应语句生成单元4生成针对反问“花子”的仅由该单词“花子”形成的响应语句。替代地,响应语句生成单元4生成针对反问“我在岐阜遇见了<花子>”的响应语句,其中在响应语句中强调了“我在岐阜遇见了花子”中的单词“花子”。因此,可以加重用户特别难以听到的重要单词“花子”,使得用户能够容易地听到该单词。
虽然在第四实施例中重要程度是TF-IDF,但其仅为示例。重要程度可以是指示单词重要程度的任何指数。在第四实施例中,与第一实施例至第三实施例中的部分相同的部分由相同的附图标记表示,并且将省略其详细描述。
第五实施例
在本公开的第五实施例中,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值并且在一般交互历史中其出现的频率等于或大于第三预定值的单词时,响应语句生成单元4生成针对反问的仅由所述单词形成的响应语句或生成针对反问的在该响应语句中强调所述单词的响应语句。
上述一般交互历史是语音交互历史的宽的范围,其不仅包括用户与语音交互系统1之间的语音交互,还包括用户之间的语音交互的历史或一般语音交互系统之间的语音交互的历史。一般交互历史被存储在,例如存储单元9或连接到,诸如因特网的网络的数据库中。响应语句生成单元4从存储单元9、数据库等中获取一般交互历史。此外,作为上述第三预定值,预先通过实验获得的最佳值,例如被存储在存储单元9中。
能够估计,在语音交互历史中其出现的频率低(是等于或小于第一预定值)的单词是用户不熟悉的单词,因此对用户来说是难以听到的单词。此外,能够估计,在一般交互历史中,出现的频率高,即等于或大于第三预定值的单词不仅对用户来说是难以听到的,而且广泛且普遍使用的。
因此,如上所述,当恰好在反问之前的响应语句包括在语音交互历史中其出现的频率等于或小于第一预定值并且在一般交互历史中其出现的频率等于或小于第三预定值的单词时,响应语句生成单元4生成针对反问的仅由所述单词形成的响应语句或生成针对反问的在该响应语句中强调所述单词的响应语句。因此,可以加重用户特别难以听到并且通常使用的单词(重要单词),使得用户能够容易地听到该单词。即,当已经检测到用户的反问时,可以生成用户能够更容易听到的响应语句并输出已经生成的响应语句。在第五实施例中,与第一实施例至第四实施例中的部分相同的部分由相同的附图标记表示,并且将省略其详细描述。
虽然上面已经描述了本公开的一些实施例,但是这些实施例是作为示例呈现的,并不旨在限制本公开的范围。这些新颖的实施例能够以其他各种形式实现,并且在不脱离本公开的精神的情况下,可以进行各种类型的省略、替换或改变。落入本公开的范围和精神内的这些实施例及其修改包括在权利要求中提供的公开内容及其等同物的范围内。
本公开能够通过使CPU执行计算机程序来实现,例如图2中所示的处理。
使用任何类型的非暂时性计算机可读介质能够存储(一个或多个)程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如,软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、光盘只读存储器(CD-ROM)、CD-R、CD-R/W和半导体存储器(诸如,掩模ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、闪速ROM和随机存取存储器(RAM)等)。
此外,使用任何类型的暂时性计算机可读介质可以将(一个或多个)程序提供给计算机。暂时性计算机可读介质的示例包括电信号、光信号和电磁波。暂时性计算机可读介质经由有线通信线路(例如,电线和光纤)或无线通信线路能够将程序提供给计算机。
从如此描述的公开内容中,显而易见的是,本公开的实施例可以以多种方式变化。不应将这些变化视为脱离本公开的精神和范围,并且对于本领域技术人员显而易见的是所有这些修改旨在包括在所附权利要求的范围内。

Claims (8)

1.一种执行与用户的语音交互的语音交互系统,所述系统包括:
反问检测装置,所述反问检测装置用于检测所述用户的反问;
响应语句生成装置,所述响应语句生成装置用于:当由所述反问检测装置检测到所述反问时,响应于所述反问,基于在所述反问之前的响应于所述用户的响应语句,来生成针对所述反问的响应语句;以及
存储装置,所述存储装置用于存储与所述用户的所述语音交互的历史;
其中,
当所述响应语句包含有在所述存储装置中的所述语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,所述响应语句生成装置生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
2.根据权利要求1所述的语音交互系统,其中,
当所述响应语句包含有在所述存储装置中的所述语音交互的历史中的其出现的频率为最低的单词时,所述响应语句生成装置生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
3.根据权利要求1所述的语音交互系统,其中,
当所述响应语句包含有在所述存储装置中的所述语音交互的历史中的其出现的频率等于或小于所述第一预定值的单词时,
所述响应语句生成装置生成以下响应语句中的至少之一:
其中该单词的语音速度是低于除了该单词以外的单词的语音速度的针对所述反问的响应语句,
其中该单词的音量是高于除了该单词以外的单词的音量的针对所述反问的响应语句,以及
其中在该单词和前后单词之间形成有间隔的针对所述反问的响应语句。
4.根据权利要求1所述的语音交互系统,其中,
当所述响应语句包含有在所述存储装置中的所述语音交互的历史中的其出现的频率等于或小于所述第一预定值并且其重要程度等于或大于第二预定值的单词时,所述响应语句生成装置生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
5.根据权利要求1至4中的任一项所述的语音交互系统,进一步包括:
话题检测装置,所述话题检测装置用于估计所述语音交互的话题并且检测已被估计的所述话题的变化,
其中,
当由所述话题检测装置检测到所述话题的变化时,所述反问检测装置基于所述用户的语音的韵律信息来检测作为所述用户的反问的所述用户的语音。
6.根据权利要求5所述的语音交互系统,进一步包括:
韵律检测装置,所述韵律检测装置用于分析所述用户的语音的所述韵律信息并且检测所述韵律的变化量,
其中,
当由所述话题检测装置检测到所述话题的变化并且由所述韵律检测装置检测到的所述韵律的变化量等于或大于预定量时,所述反问检测装置检测作为所述用户的反问的所述用户的语音。
7.一种语音交互系统的处理方法,所述语音交互系统用于执行与用户的语音交互,所述方法包括以下步骤:
检测所述用户的反问;
当检测到所述反问时,响应于所述反问,基于在所述反问之前的响应于所述用户的响应语句,来生成针对所述反问的响应语句;以及
当所述响应语句包含有在与所述用户的所述语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
8.一种计算机可读介质,所述计算机可读介质存储有用于执行与用户的语音交互的语音交互系统的程序,所述程序使计算机执行以下处理:
检测所述用户的反问;以及
当检测到所述反问时,响应于所述反问,基于在所述反问之前的响应于所述用户的响应语句,来生成针对所述反问的响应语句;
其中,
当所述响应语句包含有在与所述用户的所述语音交互的历史中的其出现的频率等于或小于第一预定值的单词时,生成仅由该单词形成的针对所述反问的响应语句或生成在响应语句中强调该单词的针对所述反问的响应语句。
CN201910450497.XA 2018-05-31 2019-05-28 语音交互系统、其处理方法及其程序 Active CN110556105B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018104983A JP7059813B2 (ja) 2018-05-31 2018-05-31 音声対話システム、その処理方法及びプログラム
JP2018-104983 2018-05-31

Publications (2)

Publication Number Publication Date
CN110556105A CN110556105A (zh) 2019-12-10
CN110556105B true CN110556105B (zh) 2022-11-15

Family

ID=68694108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450497.XA Active CN110556105B (zh) 2018-05-31 2019-05-28 语音交互系统、其处理方法及其程序

Country Status (3)

Country Link
US (1) US11170763B2 (zh)
JP (1) JP7059813B2 (zh)
CN (1) CN110556105B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
JP7151181B2 (ja) 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
CN111564202B (zh) * 2020-04-30 2021-05-28 深圳市镜象科技有限公司 基于人机对话的心理疏导方法、心理疏导终端和存储介质
WO2024071921A1 (ko) * 2022-09-30 2024-04-04 삼성전자 주식회사 인공지능과 음성 인식을 기반으로 동작하는 전자 장치 및 이의 제어 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331191A (ja) * 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
CN105592343A (zh) * 2014-11-12 2016-05-18 三星电子株式会社 针对问题和回答的显示装置和方法
CN107170447A (zh) * 2016-03-08 2017-09-15 丰田自动车株式会社 声音处理系统以及声音处理方法
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494859B2 (en) * 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
JP4755478B2 (ja) * 2005-10-07 2011-08-24 日本電信電話株式会社 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
US9575963B2 (en) * 2012-04-20 2017-02-21 Maluuba Inc. Conversational agent
JP6073649B2 (ja) 2012-11-07 2017-02-01 株式会社日立システムズ 音声自動認識・音声変換システム
JP2015148758A (ja) * 2014-02-07 2015-08-20 トヨタ自動車株式会社 音声対話システム及び音声対話方法
JP2016061970A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
JP2017049471A (ja) * 2015-09-03 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
US10102844B1 (en) * 2016-03-29 2018-10-16 Amazon Technologies, Inc. Systems and methods for providing natural responses to commands
US10229189B2 (en) * 2016-05-23 2019-03-12 International Business Machines Corporation System for generation of automated response follow-up
JP2018104982A (ja) * 2016-12-27 2018-07-05 太平洋マテリアル株式会社 吹付けコンクリートの施工方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331191A (ja) * 2000-05-23 2001-11-30 Sharp Corp 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
CN105592343A (zh) * 2014-11-12 2016-05-18 三星电子株式会社 针对问题和回答的显示装置和方法
CN107170447A (zh) * 2016-03-08 2017-09-15 丰田自动车株式会社 声音处理系统以及声音处理方法
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统

Also Published As

Publication number Publication date
JP7059813B2 (ja) 2022-04-26
JP2019211516A (ja) 2019-12-12
US20190371305A1 (en) 2019-12-05
US11170763B2 (en) 2021-11-09
CN110556105A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110556105B (zh) 语音交互系统、其处理方法及其程序
US10452352B2 (en) Voice interaction apparatus, its processing method, and program
CN109377998B (zh) 一种语音交互方法及装置
US8219397B2 (en) Data processing system for autonomously building speech identification and tagging data
CN108288467B (zh) 一种语音识别方法、装置及语音识别引擎
CN109918676B (zh) 一种检测意图正则表达式的方法及装置、终端设备
US10861458B2 (en) Response sentence generation apparatus, method and program, and voice interaction system
CN110634479B (zh) 语音交互系统、其处理方法以及其程序
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
JPWO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
US20070136067A1 (en) Audio dialogue system and voice browsing method
JP2013167666A (ja) 音声認識装置、音声認識方法、及びプログラム
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
KR101590908B1 (ko) 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
CN112836016B (zh) 会议纪要生成方法、装置、设备和存储介质
JP5136512B2 (ja) 応答生成装置及びプログラム
CN109376224B (zh) 语料过滤方法与装置
CN108899016B (zh) 一种语音文本规整方法、装置、设备及可读存储介质
JP2013064951A (ja) 音響モデル適応装置、その適応方法及びプログラム
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
CN116825080A (zh) 一种信息处理方法、装置和电子设备
CN116884403A (zh) 一种基于人工智能的精准化语音识别方法及系统
CN115222421A (zh) 需求模型库创建方法、装置、终端设备和可读存储介质
CN116564294A (zh) 一种噪声识别模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant