CN110634480B - 语音对话系统与模型创建装置及其方法 - Google Patents
语音对话系统与模型创建装置及其方法 Download PDFInfo
- Publication number
- CN110634480B CN110634480B CN201910489647.8A CN201910489647A CN110634480B CN 110634480 B CN110634480 B CN 110634480B CN 201910489647 A CN201910489647 A CN 201910489647A CN 110634480 B CN110634480 B CN 110634480B
- Authority
- CN
- China
- Prior art keywords
- value
- slot
- learning data
- character string
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 122
- 230000002093 peripheral effect Effects 0.000 claims abstract description 50
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供语音对话系统与模型创建装置及其方法。具备:值列表,将表示字符串的候选的多个值与值识别符创建了关联;答复语句列表,将识别字符串的信息的多个槽与多个值识别符创建了关联,并且将各槽与各值识别符与答复语句创建了关联;周边字符串列表,将多个槽与多个周边字符串创建了关联;存储部,存储包含与多个假定输入字符串创建了关联的槽以及值的多个槽值提取模型;槽值提取部,比较输入字符串与各槽值提取模型,推定与假定输入字符串创建了关联的槽的位置,提取与所推定的槽的位置对应的值;学习数据创建部,基于值列表、答复语句列表及周边字符串列表创建第一学习数据;模型创建部,基于第一学习数据创建第一槽值提取模型,保存在存储部中。
Description
技术领域
本发明涉及语音对话系统与模型创建装置及其方法。
背景技术
作为现有的文本对话系统(以下称为“现有系统”),存在对用户输出多次询问语句,并且基于用户所输入的多个答复语句来进行信息提示的系统。例如,作为提示搭乘时间的服务,如果使用现有系统,则督促用户进行出发地和目的地的输入,基于所输入的出发地与目的地的信息提示搭乘时间。
作为现有系统的关联技术,例如,可以列举出专利文献1所述的技术。在专利文献1中记载了一种信息检索装置,具备:存储部,保存包含假定答复以及为了引导出所述假定答复而反问的反问询问的多个答复内容;接受部,接受用户询问;检索部,基于所述接受部所接受的所述用户询问,检索所述多个答复内容,并获取与所述用户询问对应的所述假定答复以及所述反问询问中的任一方;以及输出部,输出所述检索部所取得的答复内容。
在先技术文献
专利文献
专利文献1:日本特开2015-225402号公报
发明内容
发明要解决的问题
在专利文献1所述的技术中,需要预先决定针对用户询问的询问顺序。于是,作为针对用户的询问适当选择并输出答复语句或者询问语句的语音对话系统,尝试构建具备槽值提取部与多个槽值提取模型的语音对话系统。但是,需要手动创建用于创建槽值提取模型的大量假定输入字符串,存在作业烦杂的问题。
本发明的目的在于,自动创建多个槽值提取模型。
用于解决问题的手段
为了解决上述问题,本发明提出一种语音对话系统,将所输入的输入用语音转换为输入字符串的信息,基于转换而得的所述输入字符串的信息创建包含答复语句或询问语句的信息的输出字符串,将所创建的所述输出字符串的信息转换为合成语音,将转换而得的所述合成语音作为输出用语音进行输出,其特征在于,具备:值列表,将作为构成字符串的信息且表示事先假定的字符串的候选的多个值与识别所述多个值中的各个值的多个值识别符创建关联地进行存储;答复语句列表,将表示识别构成所述字符串的信息的识别符的多个槽中的各个槽和所述多个值识别符中的各个值识别符创建关联地进行存储,并且将所述多个槽中的各个槽与所述多个值识别符中的各个值识别符与1个以上的答复语句创建关联地进行存储;周边字符串列表,将所述多个槽中的各个槽与相邻于所述多个槽中的各个槽配置的多个周边字符串创建关联地进行存储;存储部,存储包含事先假定的多个假定输入字符串、与所述多个假定输入字符串的各个假定输入字符串创建了关联的1个或者2个以上的所述槽以及所述值的多个槽值提取模型;槽值提取部,将所述输入字符串与所述多个槽值提取模型中的所述各假定输入字符串的相似度进行比较,基于与相似度高的假定输入字符串创建了关联的所述槽推定所述输入字符串中的所述槽的位置,从所述输入字符串中提取与推定的所述槽的位置对应的所述值;学习数据创建部,基于所述值列表和所述答复语句列表以及所述周边字符串列表创建第一学习数据;以及模型创建部,基于所述第一学习数据创建第一槽值提取模型,将创建的所述第一槽值提取模型作为属于所述多个槽值提取模型的模型保存在所述存储部中。
发明效果
根据本发明,能够自动创建多个槽值提取模型,其结果是,能够降低创建槽值提取模型所需的作业成本。
附图说明
图1为表示本实施方式1中的语音对话系统以及文本对话系统的整体结构的框图。
图2为表示本实施方式1中文本对话辅助装置以及模型创建装置所具备的硬件的一例的结构图。
图3为表示本实施方式1中槽值提取模型的一例的结构图。
图4为表示本实施方式1中值列表的一例的结构图。
图5为表示本实施方式1中答复语句列表的一例的结构图。
图6为表示本实施方式1中询问语句列表的一例的结构图。
图7为表示本实施方式1中周边字符串列表的一例的结构图。
图8为表示本实施方式1中学习数据的一例的结构图。
图9为表示本实施方式1中语音对话系统的语音识别处理的一例的处理流程图。
图10为表示本实施方式1中语音对话系统的语音合成处理的一例的处理流程图。
图11为表示本实施方式1中文本对话系统的处理的一例的处理流程图。
图12为表示本实施方式1中模型创建装置的处理的一例的处理流程图。
图13为表示在本实施方式2中,创建仅清除与特定槽有关的假定输入字符串而得的学习数据的处理的一例的处理流程图。
图14为表示本实施方式2中仅清除与特定槽有关的假定输入字符串而得的学习数据的一例的处理流程图。
图15为表示本实施方式3中对话日志的一例的构成图。
图16为表示本实施方式3中管理表的一例的结构图。
图17为表示本实施方式3中学习数据的一例的结构图。
附图标记说明:
10语音输入部;11处理器(CPU);12主存储装置(存储器);13辅助存储装置;14输入装置;15输出装置;16通信装置;20语音识别部;30槽值提取部;40值识别符;50答复限缩部;60语音合成部;70语音输出部;80学习数据创建部;90模型创建部;100语音;200输入字符串;300输出字符串;400合成语音;500槽值提取模型;510值列表;520答复语句列表;530询问语句列表;540周边字符串列表;550学习模型;560对话日志;580管理表;1000文本对话系统;1100模型创建装置;1200文本对话辅助装置;2000语音对话系统;3000语音处理系统。
具体实施方式
(实施方式1)
以下基于附图,具体说明本发明的一实施方式。
(语音对话系统2000的构成)
图1为表示本发明的实施方式1所涉及的语音对话系统2000的构成的一例的框图。本实施方式1的语音对话系统2000为例如和人类进行语音对话的所谓对话型机器人(服务机器人),其构成为包括进行对话所涉及的语音的输出输入处理的语音处理系统3000、以及进行与对话相关的信息处理的文本对话系统1000。
语音处理系统3000具备:语音输入部10,具有麦克风等,供语音输入;语音识别部20,从由语音输入部10输入的语音100中清除语音以外的声音(噪音)并且将清除噪音后的语音转换为字符串的信息(输入字符串200);语音合成部60,根据由文本对话系统1000输出的输出字符串300创建合成语音400;以及语音输出部70,具有扬声器等,根据由语音合成部60创建的合成语音400输出规定的合成语音。
文本对话系统1000具备文本对话辅助装置1200以及模型创建装置1100。文本对话辅助装置1200与语音处理系统3000相连接,基于从语音处理系统3000接收的输入字符串200进行规定的信息处理,从而将所对应的输出字符串300发送至语音处理系统3000。
文本对话辅助装置1200具备槽值提取部30、值识别符推定部40、答复限缩部50、多个槽值提取模型500、值列表510、答复语句列表520以及询问语句列表530。槽值提取部30参照多个槽值提取模型500,推定与输入字符串200所包含的信息有关的识别符(以下称为“槽”),从输入字符串200中提取与槽有关的字符串(以下称为“值”)。值识别符推定部40对值与作为预先登记在值列表510中的值的多个假定的值之间的相似度进行比较。在值列表510中,若存在与值的相似度高的假定的值,则值识别符推定部40将假定值的识别符(下文称“值识别符”)判定为值的值识别符。
答复限缩部50判定用于信息提示所需的槽的值识别符是否齐备。例如,若搭乘时间的提示所需要的槽的值的识别符齐备,则答复限缩部50输出与所述值识别创建了关联的答复语句(记载有搭乘时间的字符串)。另一方面,若所述槽的值识别符不齐备,则答复限缩部50输出督促进行与缺失的槽(例如<出发地>)有关的输入的询问语句(例如,出发地是?)。
模型创建装置1100为语音对话系统2000以及文本对话系统1000的管理员等所利用的信息处理装置,创建槽值提取部30所参照的槽值提取模型500。模型创建装置1100具备学习数据创建部80、模型创建部90、周边字符串列表540以及多个学习数据550。学习数据创建部80与文本对话辅助装置1200进行信息的收发,获取值列表510与答复语句列表502中记录的信息,基于值列表510与答复语句列表502以及周边字符串列表540中记录的信息,创建槽值提取模型500的创建所需的多个学习数据550。模型创建部90进行针对学习数据550的转换处理,例如,进行基于机器学习的处理,根据学习数据550创建槽值提取模型500,将所创建的槽值提取模型500发送至文本对话辅助装置1200。
图2为表示文本对话辅助装置1200以及模型创建装置1100所具备的硬件的一例的结构图。如图2所示,文本对话辅助装置1200以及模型创建装置1100具备:CPU(中央处理单元:Central Processing Unit)等负责处理的控制的处理器11;RAM(随机存取存储器:Random Access Memory)、ROM(只读存储器:Read Only Memory)等主存储装置12;HDD(硬盘驱动器:Hard Disk Drive)、SSD(固态驱动器:Solid State Drive)等辅助存储装置13;键盘、鼠标、触控面板等输入装置14;监视器(显示器)等输出装置15;以及有线LAN网卡、无线LAN网卡、调制解调器等通信装置16。另外,在文本对话辅助装置1200和模型创建装置1100之间,通过规定的通信线直接连接,或者介由LAN(局域网:Local Area Network)、WAN(广域网:Wide Area Network)、互联网、专用线等通信网连接。
此外,多个槽值提取模型500、值列表510、答复语句列表520、询问语句列表530、周边字符串列表540以及多个学习数据550存储在由主存储装置12或者辅助存储装置13构成的存储部中。另外,槽值提取部30、值识别符推定部40、答复限缩部50、学习数据创建部80、模型创建部90例如能够通过CPU执行存储在主存储装置12或者辅助存储装置13中的各种处理程序(槽值提取程序、值识别符推定程序、答复限缩程序、学习数据创建程序、模型创建程序)来实现其功能。
图3为表示槽值提取模型的结构的结构图。在图3中,槽值提取模型500包括ID501、假定输入字符串502、槽和值503。ID501为唯一性地识别槽值提取模型的识别符。假定输入字符串502是作为预先假定的输入字符串定义的信息。在假定输入字符串502中,登记有与各ID501对应地预先定义的假定输入字符串所相关的信息。例如,针对ID501的“1”,登记有“想从胜田站到国分寺站”的信息。槽和值503为用于管理登记在假定输入字符串502中的假定输入字符串之中的槽和值的信息。在槽和值503中,例如与ID501的“1”对应地,登记有“<出发地>=胜田站”、“<目的地>=国分寺站”的信息。在此,“<出发地>”与“<目的地>”表示槽,“胜田站”与“国分寺站”表示值。此外,槽值提取模型500也能够以预先定义的假定输入字符串与槽和值作为输入,通过机器学习(例如条件随机场法)被创建。
图4为表示值列表的结构的结构图。在图4中,值列表510为包括值识别符511以及假定的值512的数据库。值识别符511为唯一地识别值的识别符。在值识别符511中,例如,登记有“<东京站>”的信息,作为用于识别作为值的“东京站”的识别符。假定的值512为表示预先假定的(事先假定的)字符串的候选的信息。在假定的值512中,预先假定的值的信息被分成多个项目进行登记。例如,在假定的值512中,与值识别符511的“<东京站>”对应地,登记有“东京站”、“关东的东京站”的信息。也就是说,在值列表510中,将作为构成字符串的信息的表示事先假定的字符串的候选的多个值与识别多个值中的各个值的多个值识别符创建关联地进行存储。此外,在假定的值512中,关于3个以上的项目,登记有与各值识别符511对应的信息。
图5为表示答复语句列表的结构的结构图。在图5中,答复语句列表520包括ID521、槽和值识别符522以及答复语句523。ID521为唯一地识别答复语句的识别符。槽和值识别符522为用于管理槽与值识别符之间的关系的信息。在槽和值识别符522中,例如与ID521的“1”对应地登记有“<出发地>=<胜田站>”、“<目的地>=<东京站>”的信息。在此,“<出发地>”与“<目的地>”表示槽,“<胜田站>”与“<东京站>”表示值识别符。答复语句523为与答复语句有关的信息。在答复语句523中,例如,与ID521的“1”对应地,登记有“搭乘时间大约为2小时。”的信息。也就是说,在答复语句列表520中,将表示识别构成字符串的信息的识别符的多个槽中的各个槽与多个值识别符的各个值识别符创建关联地进行存储,并且将多个槽中的各个槽和多个值识别符中的各个值识别符与1个以上的答复语句创建关联地进行存储。
图6为表示询问语句列表的结构的结构图。在图6中,询问语句列表530包括槽531以及询问语句532。槽531为用于确定询问语句532的信息。在槽531中,例如登记有“<目的地>”的信息。询问语句532为构成询问语句的信息。在询问语句532中,例如与槽531的“<目的地>”对应地登记有“目的地是哪里?”的信息。
图7为表示周边字符串列表的结构的结构图。在图7中,周边字符串列表540包含槽541以及槽的周边字符串542。槽541为用于确定槽的周边字符串542的信息。在槽541中,例如登记有“<出发地>”的信息。槽的周边字符串542为作为相邻于槽541配置的周边字符串的候选而事先假定的信息。在槽的周边字符串542中,例如,作为相邻于“<出发地>”配置的周边字符串,记录有“从@”、“想从@出发”的信息。
图8为表示学习数据的结构的结构图。在图8中,学习数据550包括ID551、假定输入字符串552以及槽和值553。ID551为唯一性地识别学习数据的识别符。假定输入字符串552是作为预先假定的输入字符串定义的信息。在假定输入字符串552中,与各ID551对应地,登记有与预先定义的假定输入字符串有关的信息。例如,针对ID551的“1”,登记有“想从胜田站到国分寺站”的信息。槽和值553为用于管理在假定输入字符串552中登记的假定输入字符串之中的槽和值的信息。在槽和值553中,例如,与ID551的“1”对应地,登记有“<出发地>=胜田站”、“<目的地>=国分寺站”的信息。在此,“<出发地>”与“<目的地>”表示槽,“胜田站”与“国分寺站”表示值。
(语音对话系统2000的处理流程)
接着,对本发明的实施方式1中的语音对话系统2000的处理流程进行描述。图9中示出了语音对话系统2000的语音识别处理流程。如图9所示,包括麦克风的语音输入部10取得语音对话系统2000的对话对象的语音(输入用语音)100(S10)。语音识别部20从由语音输入部10取得的语音100中将除了对话对象的语音以外的声音(称为“噪音”)清除,将包含在语音100中的文本信息转换成输入字符串200的信息(S11)。接着,语音识别部20针对文本对话系统1000发送输入字符串200的信息(S12),迁移至步骤S10。此后,反复进行步骤S10~步骤S12的处理。
接着,图10中示出了语音对话系统2000的语音合成处理流程。如图10所示,语音合成部60接收文本对话系统1000的输出字符串300的信息(S20)。接着,语音合成部60根据输出字符串300创建合成语音400(S21)。接着,语音合成部60使用包括扬声器的语音输出部70播放合成语音(输出用语音)400(S22),迁移至步骤S20。此后,反复进行步骤S20~步骤S22的处理。
通过上述一系列的处理流程,可以将输入至语音输入部10的对话对象的语音100转换成输入字符串200的信息,向文本对话系统1000发送转换而得的输入字符串200的信息。另外,能够将从文本对话系统1000输出的输出字符串300的信息转换成合成语音400,将转换而得的合成语音400从语音输出部70向对话对象播放。
(文本对话系统1000的处理流程)
接着,对文本对话系统1000的处理流程进行描述。图11示出了文本对话系统1000的基本处理流程。如图11所示,槽值提取部30参照预先创建的槽值提取模型500,根据实际的输入字符串200,推定与槽有关的字符串(值)的位置,提取推定的位置的值,将值和槽的信息转送至值识别符推定部40(S30)。
例如,槽值提取部30在作为输入字符串200输入了“想到东京站”的信息的情况下,比较输入字符串200与图3的槽值提取模型500的假定输入字符串502之间的相似度,从假定输入字符串502中,选择“想到东京站”作为相似度高的假定输入字符串,关于与所选择的假定输入字符串“想到东京站”创建了关联的槽(例如,<目的地>),推定输入字符串200中的槽的位置。例如,因为假定输入字符串502中的槽相邻于“想到…”这样的字符(以下称为“槽周边字符串”)的前边(或者后边)配置,所以将相邻于槽周边字符串的前边(或者后边)的输入字符串200的位置推定为槽的位置。最后,槽值提取部30提取槽的位置的单词例如“东京站”作为值。此外,在使用通过机器学习创建的槽值提取模型时,不使用上述槽以及值的提取方法,槽值提取部30将输入字符串200中的槽以及值的推定结果向值识别符推定部40转送。
接着,值识别符推定部40在从槽值提取部30接收了槽和值的信息的情况下,参照值列表510,比较所接收的值与所假定的值512的相似度,若相似度高,则推定与所假定的值512对应的值识别符511,将推定结果(值识别符)的信息和值的信息转送至答复限缩部50(S31)。例如,若所接收的值为“东京站”,则值识别符推定部40推定“<东京站>”作为值识别符511。
接着,答复限缩部50在从值识别符推定部40接收了推定结果(值识别符)的信息(“<东京站>”)与值的信息(“东京站”)的情况下,参照答复语句列表520,判定用于信息提示所需的槽的值识别符是否齐备(S32、S33)。例如,在搭乘时间的提示所需的槽的值识别符(例如,槽<目的地>的值识别符为<东京站>,槽<出发地>的值识别符为<胜田站>)齐备的情况下,答复限缩部50例如输出“搭乘时间大约2小时。”的信息作为与值识别符(“<东京站>”、“<胜田站>”)创建了关联的答复语句523(S34),结束该例程中的处理。
另一方面,在值识别符仅为表示<目的地>的“<东京站>”,搭乘时间的提示所需的槽的值识别符不齐备的情况下,答复限缩部50参照询问语句列表530,例如输出“出发地是哪里?”的信息作为督促进行与缺失的槽(例如,<出发地>)有关的输入的询问语句532(S35)。接着,答复限缩部50将已取得的值识别符的信息记录于存储器(存储部)(S36),结束该例程中的处理。
根据上述一系列的文本对话系统1000的处理流程,能够对用户输出多次询问语句,基于用户所输入的多个答复语句,进行适当的信息提示。
(模型创建装置1100的处理流程)
接着,对本发明的实施方式1的模型创建装置1100的处理流程进行描述。图12示出了模型创建装置1100的处理流程。如图12所示,学习数据创建部80参照值列表510与答复语句列表520以及周边字符串列表540,基于参照结果创建学习数据550。学习数据550为包含假定输入字符串与槽和值的数据。以下对学习数据550的具体的创建方法进行描述。
(学习数据550的创建方法)
学习数据创建部80为了创建假定输入字符串,从答复语句列表520中取得与答复语句523中的1个答复语句创建了关联的多个值识别符(S40)。接着,学习数据创建部80创建从所取得的多个值识别符中选择N个(N=1~Nmax(事先定义的最大值))的组合(S41),针对所创建的各组合,创建排列(S42)。例如,在与回答语句523创建了关联的值识别符为2个的情况下,作为2个值识别符,例如,作为使用“<胜田站>”、“<东京站>”的排列,例如创建M21=[<胜田站>、<东京站>]、M22=[<东京站>、<胜田站>],作为使用1个值识别符的排列,例如,创建M11=[<胜田站>]、M12=[<东京站>]。
接着,学习数据创建部80关于全部答复语句,判定是否创建了值识别符的排列(S43)。在步骤43中,若得到否定的判定结果,则学习数据创建部80向步骤S40迁移,重复步骤S40~S43的处理。另一方面,步骤S43中,若得到肯定的判定结果,则学习数据创建部80从经步骤S42创建的排列中选择一个排列(S44),选择一个所选择的排列的值识别符(S45)。
接着,学习数据创建部80基于从排列中选择的值标识符参照值列表510,从值列表510之中,作为与排列例如M21=[<胜田站>、<东京站>]的值识别符(例如、<胜田站>)创建了关联的值,从假定的值512中取得例如“胜田站”(S46)。
此时,学习数据创作部80基于从排列中选择的值标识符参照答复语句列表520,从答复语句列表520中,作为与排列例如M21=[<胜田站>,<东京站>]的值识别符(例如<胜田站>)创建了关联的槽,从槽和值标识符522中取得例如“<出发地>”(S47)。再有,学习数据创建部80基于所取得的槽[<出发地>]参照周边字符串列表540,从周边字符串列表540中,作为与所取得的槽“<出发地>”创建了关联的周边字符串,从槽的周边字符串542中取得例如“从@”(S48)。
接着,学习数据创建部80基于经步骤S46取得的值(“胜田站”)、经步骤S47取得的槽(<出发地>)、以及经步骤S48取得的周边字符串(<从@>),创建在周边字符串的值插入位置例如“@”插入值例如“胜田站”的字符串,例如C1=“从胜田站”(S49)。
接着,学习数据创建部80关于排列内的全部的值识别符,判定是否创建了字符串(S50)。若在步骤S50中得到否定的判定结果,则学习数据创建部80向步骤S45迁移,重复步骤S45~S50的处理。
此时,学习数据创建部80作为排列=M21中的其他值标识符,例如,作为与值识别符(<识别符>)创建了关联的值,从值列表510的所假定的值512中,取得例如“东京站”。另外,学习数据创建部80作为其他值识别符,例如作为与值识别符(<东京站>)创建了关联的槽,从答复语句列表520的槽与值识别符522中,取得例如“<目的地>”。再有,学习数据创建部80基于所取得的槽“<目的地>”参照周边字符串列表540,从周边字符串列表540中,作为与所取得的槽“<目的地>”创建关联的周边字符串,从槽的周边字符串542中,取得例如“想到@”作为周边字符串。此时,学习数据创建部80作为在周边字符串的值插入位置作为值例如插入了“东京站”的字符串,例如创建C2=“想到东京站”。
另一方面,若在步骤S50中得到肯定的判定结果,则学习数据创建部80结合根据各值识别符创建的字符串来创建假定输入字符串的信息(S51)。例如,学习数据创建部80结合根据包含在排列中的各值识别符创建的字符串,创建C1+C2=“想从胜田站到东京站”作为假定输入字符串。
接着,学习数据创建部80关于全部排列,判定是否创建了假定输入字符串(S52)。若在步骤S52中得到了否定的判定结果,则学习数据创建部80向S45迁移,重复步骤S44~S52的处理。另一方面,若在步骤S52中得到了肯定的判定结果,则学习数据创建部80创建将用于创建多个假定输入字符串的槽以及值与假定输入字符串创建关联而得的数据作为学习数据(第一学习数据)550(S53),之后,结束该例程中的处理。
此时,学习数据创建部80根据每个值识别符的排列的组合,从值列表510中分别取得与属于值识别符的排列的各要素的值识别符创建了关联的值作为各要素的值,从答复语句列表520中分别取得与各要素的值识别符创建了关联的槽,作为各要素的槽,从周边字符串列表540中分别取得与各要素的槽创建了关联的周边字符串作为各要素的周边字符串,创建将所取得的各要素的值和所取得的各要素的周边字符串结合后的字符串作为各要素的字符串,将各要素的字符串结合,创建多个假定输入字符串,基于所创建的多个假定输入字符串、以及用于创建多个假定输入字符串各自的各要素的槽以及各要素的值,创建将各假定输入字符串、各要素的槽以及各要素的值创建关联而得的数据作为第一学习数据550。
(模型创建方法)
模型创建部90根据学习数据(第一学习数据)550创建槽值提取模型(第一槽值提取模型)500。槽值提取模型500登记有预先定义的假定输入字符串与槽和值。例如,学习数据550与槽值提取模型500可以相同。另外,槽值提取模型500也可以将学习数据550的假定输入字符串、槽以及值作为输入,通过机器学习(例如条件随机场法)来创建。
根据本实施方式,能够自动创建多个槽值提取模型,其结果是,能够降低创建槽值提取模型所需要的作业成本。
(实施方式2)
本实施方式通过在实施方式1中所述的语音对话系统2000中切换多个槽值提取模型(第一或者第二槽值提取模型),从而能够实现高精度的槽值提取。另外,降低了在多个槽值提取模型的创建中所需要的作业成本。
在实施方式1中,若信息提示所需的槽的值识别符不齐备,则答复限缩部50参照询问语句列表530,输出督促进行与缺失的槽(例如<出发地>)有关的输入的询问语句(例如,出发地是哪里?)。对此,本实施方式2的槽值提取部30为了从对话对象的输入字符串中高精度地进行槽值提取,使用仅不包含与已取得的槽相关的假定输入字符串的槽值提取模型(第二槽值提取模型)。通过仅将与已取得的槽有关的假定输入字符串不包含在槽值提取模型中,槽值提取部30不会错误地提取出已取得的槽。因此,本实施方式2中槽值提取的精度高于实施方式1。
另外,为了降低创建多个槽值提取模型所需的作业成本,本实施方式2的学习数据创建部80根据在实施方式1中创建的学习数据(第一学习数据)550,创建仅清除与特定槽有关的假定输入字符串而得的学习数据作为第二学习数据。并且,模型创建部90根据第二学习数据创建第二槽值提取模型。
学习数据创建的处理流程在图13中示出。如图13所示,学习数据创建部80创建从在实施方式1中创建的学习数据550所使用的所有槽(M个)中选择N个(N=1~M-1)槽的组合。并且,针对每个组合,创建只将与未包含在组合中的槽有关的假定输入字符串从学习数据550中清除而得的数据(第二学习数据)。
具体地,在实施方式1创建的学习数据550的情况下,学习数据创建部80创建从全部槽(M=2)中选择N个(N=1~M-1)槽的组合,例如2种(S60)。接着,学习数据创建部80从经步骤S60创建的组合(2种)中选择一个组合,按所选择的每个组合,如图14所示,创建只将与未包含在组合中的槽有关的假定输入语句(假定输入字符串)从学习数据550中清除而得的数据作为学习数据(第二学习数据)550(2A、2B)(S61)。
图14的(a)表示从图8的学习数据550中仅清除与特定槽“<目的地>”有关的假定输入字符串而得的学习数据550(2A)的例子。即,图14的(a)的学习数据550(2A)为在图8的学习数据550的槽和值553中删除存在“<目的地>”的信息的ID551为“1”~“6”的信息而得的学习数据。另外,图14的(b)表示图8的学习数据550中仅清除与特定槽“<出发地>”有关的假定输入字符串而得的学习数据550(2B)的例子。即,图14的(b)的学习数据550(2B)为在图8的学习数据550的槽和值553中删除存在“<出发地>”的信息的ID551为“1”~“4”和“7”的信息而得的学习数据。
根据本实施方式,通过在实施方式1所述的语音对话系统2000中将多个槽值提取模型从第一槽值提取模型切换至第二槽值提取模型,能够提取高精度的槽值提取模型。另外,能够降低创建多个槽值提取模型所需的作业成本。
(实施方式3)
为了从对话对象的输入字符串中高精度地进行槽值提取,本实施方式3的槽值提取部30基于对话日志将所使用的槽值提取模型从第一槽值提取模型切换至第三槽值提取模型。对话日志的一例在图15中示出。
图15为表示对话日志的结构的结构图。对话日志560包括ID561、询问语句562以及槽563。槽563包括<出发地>564、<目的地>565、<出发时刻>566、<出发地><目的地>567、<目的地><出发时刻>568、<出发时刻><出发地>569、<出发地><目的地><出发时刻>570。
ID561为唯一性地识别对话日志的识别符。询问语句562为管理针对用户的询问语句的信息。在询问语句562中,登记有例如“目的地是哪里?”的信息。槽563为管理包含在询问语句562中的槽的概率(比例)的信息。在槽563中,例如,如ID561的“1”所示,若作为“-”(无询问语句输出)的询问语句562,包含有“<出发地>”的信息的概率为“20%”,则在<出发地>564中,登记有“20%”的信息。如ID561的“2”所示,若作为“目的地是哪里?”的询问语句562,包含有“<出发地>”的信息的概率为“0%”,则在<出发地>564中登记有“0%”的信息。另外,如ID561的“3”所示,若作为“出发地是哪里?”的询问语句562,包含有“<出发地>”的信息的概率为“80%”,则在<出发地>564中,登记有“80%”的信息。再有,如ID561的“4”所示,若作为“出发时刻是什么时候?”的询问语句562,包含有“<出发地>”的信息的概率为“0%”,则在<出发地>564中登记有“0%”的信息。
对话日志为在对话对象的输入字符串中包含有各槽的概率。例如,在没有文本对话系统1000的询问语句输出的状态(ID561的“1”)下的对话对方的输入字符串200中,只包含有与槽563中的<出发地>564有关的字符串的概率为阈值(例如10%)以上的“20%”,只包含与槽563中的<目的地>565有关的字符串的概率为阈值以上的“80%”。因此,为了提高槽值提取的精度,在没有询问语句输出的状态下的输出字符串200的槽值提取中,槽值提取部30使用登记了只与槽563中的<出发地>564有关的假定输入字符串以及只与槽563中的<目的地>565有关的假定输入字符串这双方的槽值提取模型550(参照图17的(a))。
同样地,在针对询问语句“目的地是哪里?”的输入字符串200的槽值提取中,槽值提取部30使用登记了只与槽563中的<目的地>565有关的假定输入字符串的槽值提取模型550(参照图17的(b))。
另外,在针对询问语句“出发地是哪里?”的输入字符串200的槽值提取中,槽值提取部30使用登记了只与槽563中的<出发地>564有关的假定输入字符串以及包含有槽563中的<出发时刻>566和<出发地>564双方的假定输入字符串的槽值提取模型550(参照图17的(c))。
另外,在针对询问语句“出发时刻是什么时候?”的输入字符串200的槽值提取中,槽值提取部30使用登记了只与槽563中的<出发时刻>566有关的假定输入字符串以及包含有槽563中的<出发时刻>566和<出发地>564双方的假定输入字符串的槽值提取模型550(参照图17的(d))。
因此,需要基于对话日志560通过管理表来管理登记了与特定槽有关的假定输入字符串的槽值提取模型550。
图16为表示管理表的结构的结构图。在图16中,管理表580为管理询问语句与槽值提取模型之间关系的表,包含ID581、询问语句582、槽值提取模型583。ID581为唯一性地识别询问语句582的识别符。询问语句582为管理针对用户的询问语句的信息。在询问语句582中,例如,登记有“目的地是哪里?”的信息。槽值提取模型583为确定用于创建槽值提取模型(第三槽值提取模型)500(3A~3D)的学习数据(第三学习数据)550的信息。在槽值提取模型583中,例如,登记有“3A”作为确定学习数据550(3A)的信息。
此时,学习数据创建部80为了降低创建多个槽值提取模型500所需的作业成本,创建与基于对话日志560的特定槽有关的学习数据(参照图17)。另一方面,模型创建部90根据由学习数据创建部80创建的各种学习数据550(3A~3d)创建槽值提取模型500(3A~3D)。
图17为表示与基于对话日志的特定槽有关的学习数据的结构的结构图。图17的(a)为由管理表580的槽值提取模型583的“3A”所确定的学习数据550(3A)。学习数据550(3A)包括ID551、假定输入字符串552以及槽和值553。如ID551的“1”所示,在假定输入字符串552中,例如,登记有“想到国分寺站”作为仅目的地的信息,在槽和值553中,例如,登记有“<目的地>”作为槽,登记有“国分寺站”作为值。另外,如ID551的“3”所示,在假定输入字符串552中,例如,登记有“想从胜田站出发”作为仅出发地的信息,在槽和值553中,登记有“<出发地>”作为槽,登记有“胜田站”作为值。
图17的(b)为通过管理表580的槽值提取模型583的“3B”确定的学习数据550(3B)。学习数据550(3B)包含ID551、假定输入字符串552以及槽和值553。如ID551的“1”所示,在学习数据550(3B)的假定输入字符串552中,例如,登记有“想到国分寺站”作为仅目的地的信息,在槽和值553中,例如,登记有“<目的地>”作为槽,登记有“国分寺站”作为值。
图17的(c)为由管理表580的槽值提取模型583的“3C”确定的学习数据550(3C)。学习数据550(3C)包含ID551、假定输入字符串552以及槽和值553。如ID551的“1”所示,在学习数据550(3C)的假定输入字符串552中,例如,登记有“想10点从胜田站出发”作为出发时刻和出发地的信息,在槽和值553中,例如,登记有“<出发地>”作为槽,登记有“胜田站”作为值,并且登记有“<出发时刻>”作为槽、登记有“10点”作为值。另外,如ID551中“2”所示,在学习数据550(3C)的假定输入字符串552中,登记有“想从胜田站出发”作为仅出发地的信息,在槽和值553中,登记有“<出发地>”作为槽,登记有“胜田站”作为值。
图17的(d)为由管理表580的槽值提取模型583的“3D”确定的学习数据550(3D)。学习数据550(3D)包含ID551、假定输入字符串552以及槽和值553。如ID551的“1”所示,在学习数据550(3D)的假定输入字符串552中,例如,登记有“想10点从胜田站出发”作为出发时刻和出发地的信息,在槽和值553中,例如,登记有“<出发地>”作为槽,登记有“胜田站”作为值,并且登记有“<出发时刻>”作为槽,登记有“10点”作为值。另外,如ID551的“2”所示,在学习数据550(3D)的假定输入字符串552中,登记有“想乘坐10点发的车”作为仅出发时刻的信息,在槽和值553中,登记有“<出发时刻>”作为槽,登记有“10点”作为值。
根据本实施方式,通过在实施方式1所述的语音对话系统2000中将多个槽值提取模型从第一槽值提取模型切换至第三槽值提取模型,能够进行高精度的槽值提取模型的提取。另外,能够降低创建多个槽值提取模型所需的作业成本。
此外,基于实施方式具体地说明了本发明人做出的发明,但本发明不限定于前述实施方式,当然可以在不脱离其主旨的范围内进行各种变更。例如,也能够将值列表510、答复语句列表520设置在模型创建装置1100中。
本发明能够广泛适用于具备语音对话系统的对话用机器人,或者具备文本对话系统的聊天机器人等,以语音以及文本为输入的对话系统。
另外,上述的各结构、功能等可以将其一部分或全部通过例如用集成电路设计等而用硬件实现。另外,上述各构成、功能等也可以通过处理器对实现各自的功能的程序进行解释并执行来利用软件实现。实现各功能的程序、表、文件等的信息能够记录并置于存储器、硬盘、SSD(固态驱动器:Solid State Drive)等记录装置、或IC(集成芯片:IntegratedCircuit)卡、SD(安全数据:Secure Digital)存储卡、DVD等记录介质中。
Claims (10)
1.一种语音对话系统,将所输入的输入用语音转换为输入字符串的信息,基于转换而得的所述输入字符串的信息创建包含答复语句或询问语句的信息的输出字符串,将所创建的所述输出字符串的信息转换为合成语音,将转换而得的所述合成语音作为输出用语音进行输出,其特征在于,具备:
值列表,将作为构成字符串的信息且表示事先假定的字符串的候选的多个值,与用于识别所述多个值中的各个值的多个值识别符创建关联地进行存储;
答复语句列表,将表示用于识别构成所述字符串的信息的识别符的多个槽中的各个槽与所述多个值识别符中的各个值识别符创建关联地进行存储,并且将所述多个槽中的各个槽和所述多个值识别符中的各个值识别符与1个以上的答复语句创建关联地进行存储;
周边字符串列表,将所述多个槽中的各个槽与相邻于所述多个槽中的各个槽配置的多个周边字符串创建关联地进行存储;
存储部,存储包含事先假定的多个假定输入字符串和与所述多个假定输入字符串中的各个假定输入字符串创建了关联的1个或者2个以上的所述槽以及所述值在内的多个槽值提取模型;
槽值提取部,比较所述输入字符串与所述多个槽值提取模型中的所述各假定输入字符串的相似度,基于与相似度高的假定输入字符串创建了关联的所述槽推定所述输入字符串中的所述槽的位置,从所述输入字符串中提取与推定的所述槽的位置对应的所述值;
学习数据创建部,基于所述值列表和所述答复语句列表以及所述周边字符串列表创建第一学习数据;以及
模型创建部,基于所述第一学习数据创建第一槽值提取模型,将创建的所述第一槽值提取模型作为属于所述多个槽值提取模型的模型保存在所述存储部中,
所述学习数据创建部,
基于所述答复语句列表,创建与所述答复语句列表中的所述答复语句创建了关联的所述值识别符的1个或者2个以上的组合,按所述1个或者2个以上的组合中的每个组合,创建所述值识别符的排列,
按所述值识别符的排列的每个组合,从所述值列表中分别取得与属于所述值识别符的排列的各要素的所述值识别符创建了关联的所述值作为所述各要素的值,并且从所述答复语句列表中分别取得与所述各要素的值识别符创建了关联的所述槽作为所述各要素的槽,还从所述周边字符串列表中分别取得与所述各要素的槽创建了关联的所述周边字符串作为所述各要素的周边字符串,
按所述值识别符的排列的每个组合,创建将所取得的所述各要素的值与所取得的所述各要素的周边字符串进行结合而得的字符串作为所述各要素的字符串,并且将所述各要素的字符串进行结合来创建多个假定输入字符串,
基于所创建的所述多个假定输入字符串、以及在创建所述多个假定输入字符串中的各个假定输入字符串中使用的所述各要素的槽和所述各要素的值,创建将所述各假定输入字符串与所述各要素的槽以及所述各要素的值创建关联而得的数据作为所述第一学习数据。
2.根据权利要求1所述的语音对话系统,其特征在于,
所述学习数据创建部创建与所述第一学习数据创建了关联的所述各要素的所述槽中的1个或者2个以上的特定槽的组合,将与从所创建的所述特定槽的组合中排除的槽创建了关联的学习数据从所述第一学习数据中排除,创建第二学习数据,
所述模型创建部基于所述第二学习数据创建第二槽值提取模型,将所创建的所述第二槽值提取模型作为属于所述多个槽值提取模型的模型保存在所述存储部中。
3.根据权利要求1或2所述的语音对话系统,其特征在于,还具备:
对话日志,针对事先设定的1个或者2个以上的语音输出用字符串,至少将包含有所述各要素的槽的概率创建了关联,
所述学习数据创建部从所述第一学习数据中提取如下数据,创建第三学习数据,提取的该数据包含与所述第一学习数据创建了关联的所述各要素的所述槽中的由所述对话日志规定的所述概率为阈值以上的槽所相关的所述假定输入字符串,
所述模型创建部基于所述第三学习数据创建第三槽值提取模型,将所创建的所述第三槽值提取模型作为属于所述多个槽值提取模型的模型保存在所述存储部中。
4.根据权利要求1或2所述的语音对话系统,其特征在于,还具备:
询问语句列表,将所述多个槽中的各个槽与多个询问语句中的各个询问语句创建关联地进行存储;
值识别符推定部,比较由所述槽值提取部的提取得到的所述值与所述值列表中的所述值之间的相似度,推定与相似度高的值创建了关联的所述值识别符,作为由所述槽值提取部的提取得到的所述值的所述值识别符;以及
答复限缩部,基于由所述值识别符推定部推定的所述值识别符,参照所述答复语句列表,在用于信息提示的所述槽的所述值识别符存在于所述答复语句中的情况下,输出与用于所述信息提示的所述槽的所述值识别符创建了关联的所述答复语句作为所述输出字符串,在用于所述信息提示的所述槽的所述值识别符不存在于所述答复语句中的情况下,参照所述询问语句列表,输出与相对于用于所述信息提示的所述槽欠缺的所述槽创建了关联的所述询问语句作为所述输出字符串。
5.一种模型创建装置,其特征在于,具备:
值列表,将作为构成字符串的信息且表示事先假定的字符串的候选的多个值,与用于识别所述多个值中的各个值的多个值识别符创建关联地进行存储;
答复语句列表,将表示用于识别构成所述字符串的信息的识别符的多个槽中的各个槽与所述多个值识别符中的各个值识别符创建关联地进行存储,并且将所述多个槽中的各个槽和所述多个值识别符中的各个值识别符与1个以上的答复语句创建关联地进行存储;
周边字符串列表,将所述多个槽中的各个槽与相邻于所述多个槽中的各个槽配置的多个周边字符串创建关联地进行存储;
学习数据创建部,基于所述值列表和所述答复语句列表以及所述周边字符串列表创建第一学习数据;以及
模型创建部,基于所述第一学习数据创建第一槽值提取模型,
所述学习数据创建部,
基于所述答复语句列表,创建与所述答复语句列表中的所述答复语句创建关联的所述值识别符的1个或者2个以上的组合,按所述1个或者2个以上的组合中的每个组合,创建所述值识别符的排列,
按所述值识别符的排列的每个组合,从所述值列表中分别取得与属于所述值识别符的排列的各要素的值识别符创建了关联的值作为所述各要素的值,并且从所述答复语句列表中分别取得与所述各要素的值识别符创建了关联的槽作为所述各要素的槽,还从所述周边字符串列表中分别取得与所述各要素的槽创建了关联的所述周边字符串作为所述各要素的周边字符串,
按所述值识别符的排列的每个组合,创建将所取得的所述各要素的值与所取得的所述各要素的周边字符串进行结合而得的字符串作为所述各要素的字符串,并且将所述各要素的字符串进行结合来创建多个假定输入字符串,
基于所创建的所述多个假定输入字符串、以及在创建所述多个假定输入字符串中的各个假定输入字符串中使用的所述各要素的槽和所述各要素的值,创建将所述各假定输入字符串与所述各要素的槽以及所述各要素的值创建关联而得的数据作为所述第一学习数据。
6.根据权利要求5所述的模型创建装置,其特征在于:
所述学习数据创建部创建与所述第一学习数据创建了关联的所述各要素的槽中的1个或者2个以上的特定槽的组合,将与从所创建的所述特定槽的组合中排除的槽创建了关联的学习数据从所述第一学习数据中排除,创建第二学习数据,
所述模型创建部基于所述第二学习数据创建第二槽值提取模型。
7.根据权利要求5或6所述的模型创建装置,其特征在于,还具有:
对话日志,针对事先设定的1个或者2个以上的语音输出用字符串,至少将包含有所述各要素的槽的概率创建了关联,
所述学习数据创建部从所述第一学习数据中提取如下数据,创建第三学习数据,提取的该数据包含与所述第一学习数据创建了关联的所述各要素的槽中的由所述对话日志规定的所述概率为阈值以上的槽所相关的所述假定输入字符串,
所述模型创建部基于所述第三学习数据创建第三槽值提取模型。
8.一种模型创建方法,是模型创建装置中的模型创建方法,
所述模型创建装置具备:
值列表,将作为构成字符串的信息且表示事先假定的字符串的候选的多个值,与用于识别所述多个值中的各个值的多个值识别符创建关联地进行存储;
答复语句列表,将表示用于识别构成所述字符串的信息的识别符的多个槽中的各个槽与所述多个值识别符中的各个值识别符创建关联地进行存储,并且将所述多个槽中的各个槽和所述多个值识别符中的各个值识别符与1个以上的答复语句创建关联地进行存储;
周边字符串列表,将所述多个槽中的各个槽与相邻于所述多个槽中的各个槽配置的多个周边字符串创建关联地进行存储;
学习数据创建部,基于所述值列表和所述答复语句列表以及所述周边字符串列表创建第一学习数据;以及
模型创建部,基于所述第一学习数据创建第一槽值提取模型,
所述模型创建方法的特征在于,包括:
排列创建步骤,所述学习数据创建部基于所述答复语句列表,创建与所述答复语句列表中的所述答复语句创建了关联的所述值识别符的1个或者2个以上的组合,按所述1个或者2以上的组合中的每个组合,创建所述值识别符的排列;
取得步骤,所述学习数据创建部按所述值识别符的排列的每个组合,从所述值列表中分别取得与属于所述值识别符的排列的各要素的所述值识别符创建了关联的值作为所述各要素的值,并且从所述答复语句列表中分别取得与所述各要素的值识别符创建了关联的槽作为所述各要素的槽,还从所述周边字符串列表中分别取得与所述各要素的槽创建了关联的所述周边字符串作为所述各要素的周边字符串;
假定输入字符串创建步骤,所述学习数据创建部按所述值识别符的排列的每个组合,创建将所取得的所述各要素的值与所取得的所述各要素的周边字符串进行结合而得的字符串作为所述各要素的字符串,并且将所述各要素的字符串进行结合来创建多个假定输入字符串;以及
第一学习数据创建步骤,所述学习数据创建部基于经所述假定输入字符串创建步骤创建的所述多个假定输入字符串、以及在创建所述多个假定输入字符串中的各个假定输入字符串中使用的所述各要素的槽以及所述各要素的值,创建将所述各假定输入字符串、所述各要素的槽以及所述各要素的值创建关联而得的数据作为所述第一学习数据。
9.根据权利要求8所述的模型创建方法,其特征在于,包括:
第二学习数据创建步骤,所述学习数据创建部创建与所述第一学习数据创建了关联的所述各要素的槽中的1个或者2个以上的特定槽的组合,将与从创建的所述特定槽的组合中排除的槽创建了关联的学习数据从所述第一学习数据中排除,创建第二学习数据;以及
第二槽值提取模型创建步骤,所述模型创建部基于由所述第二学习数据创建步骤创建的所述第二学习数据创建第二槽值提取模型。
10.如权利要求8或9所述的模型创建方法,其特征在于,
所述模型创建装置还具备:
对话日志,针对事先设定的1个或者2个以上的语音输出用字符串,至少将包含有所述各要素的槽的概率创建了关联,
所述模型创建方法包括:
第三学习数据创建步骤,所述学习数据创建部从所述第一学习数据中提取如下数据,创建第三学习数据,提取的该数据包含与所述第一学习数据创建了关联的所述各要素的槽中的由所述对话日志规定的所述概率为阈值以上的槽所相关的所述假定输入字符串;以及
第三槽值提取模型创建步骤,所述模型创建部基于经所述第三学习数据创建步骤创建的所述第三学习数据创建第三槽值提取模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-119325 | 2018-06-22 | ||
JP2018119325A JP6964558B2 (ja) | 2018-06-22 | 2018-06-22 | 音声対話システムとモデル作成装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634480A CN110634480A (zh) | 2019-12-31 |
CN110634480B true CN110634480B (zh) | 2023-04-28 |
Family
ID=68968838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910489647.8A Active CN110634480B (zh) | 2018-06-22 | 2019-06-06 | 语音对话系统与模型创建装置及其方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190392005A1 (zh) |
JP (1) | JP6964558B2 (zh) |
CN (1) | CN110634480B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145734A (zh) * | 2020-02-28 | 2020-05-12 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
JP7566476B2 (ja) * | 2020-03-17 | 2024-10-15 | 東芝テック株式会社 | 情報処理装置、情報処理システム及びその制御プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101981613A (zh) * | 2008-03-31 | 2011-02-23 | 三洋电机株式会社 | 语音设备、语音控制程序以及语音控制方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023783A (ja) * | 2000-07-13 | 2002-01-25 | Fujitsu Ltd | 対話処理システム |
JP2005157494A (ja) * | 2003-11-20 | 2005-06-16 | Aruze Corp | 会話制御装置及び会話制御方法 |
JP4075067B2 (ja) * | 2004-04-14 | 2008-04-16 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに、プログラム |
JP4464770B2 (ja) * | 2004-08-31 | 2010-05-19 | 日本電信電話株式会社 | 対話戦略学習方法および対話戦略学習装置 |
JP5346327B2 (ja) * | 2010-08-10 | 2013-11-20 | 日本電信電話株式会社 | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
JP5660441B2 (ja) * | 2010-09-22 | 2015-01-28 | 独立行政法人情報通信研究機構 | 音声認識装置、音声認識方法、及びプログラム |
JP6078964B2 (ja) * | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
DE102013007502A1 (de) * | 2013-04-25 | 2014-10-30 | Elektrobit Automotive Gmbh | Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen |
JP6235360B2 (ja) * | 2014-02-05 | 2017-11-22 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
JP6604542B2 (ja) * | 2015-04-02 | 2019-11-13 | パナソニックIpマネジメント株式会社 | 対話方法、対話プログラム及び対話システム |
JP2017027234A (ja) * | 2015-07-17 | 2017-02-02 | 日本電信電話株式会社 | フレーム作成装置、方法、及びプログラム |
US10176463B2 (en) * | 2015-12-17 | 2019-01-08 | International Business Machines Corporation | Machine learning system for intelligently identifying suitable time slots in a user's electronic calendar |
CN105632495B (zh) * | 2015-12-30 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
JP6651973B2 (ja) * | 2016-05-09 | 2020-02-19 | 富士通株式会社 | 対話処理プログラム、対話処理方法および情報処理装置 |
US20180032884A1 (en) * | 2016-07-27 | 2018-02-01 | Wipro Limited | Method and system for dynamically generating adaptive response to user interactions |
CN106448670B (zh) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
US9977778B1 (en) * | 2016-11-03 | 2018-05-22 | Conduent Business Services, Llc | Probabilistic matching for dialog state tracking with limited training data |
US20180129484A1 (en) * | 2016-11-04 | 2018-05-10 | Microsoft Technology Licensing, Llc | Conversational user interface agent development environment |
CN107220292A (zh) * | 2017-04-25 | 2017-09-29 | 上海庆科信息技术有限公司 | 智能对话装置、反馈式智能语音控制系统及方法 |
CN110019699B (zh) * | 2017-09-05 | 2023-10-20 | 声音猎手公司 | 域间通过语法槽的分类 |
US11010656B2 (en) * | 2017-10-30 | 2021-05-18 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
EP3483746A1 (en) * | 2017-11-09 | 2019-05-15 | Snips | Methods and devices for generating data to train a natural language understanding component |
US10572801B2 (en) * | 2017-11-22 | 2020-02-25 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
-
2018
- 2018-06-22 JP JP2018119325A patent/JP6964558B2/ja active Active
-
2019
- 2019-05-23 US US16/420,479 patent/US20190392005A1/en not_active Abandoned
- 2019-06-06 CN CN201910489647.8A patent/CN110634480B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101981613A (zh) * | 2008-03-31 | 2011-02-23 | 三洋电机株式会社 | 语音设备、语音控制程序以及语音控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110634480A (zh) | 2019-12-31 |
JP6964558B2 (ja) | 2021-11-10 |
US20190392005A1 (en) | 2019-12-26 |
JP2019220115A (ja) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020215554A1 (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
US11037553B2 (en) | Learning-type interactive device | |
EP2887229A2 (en) | Communication support apparatus, communication support method and computer program product | |
JP4762103B2 (ja) | 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 | |
US10747946B2 (en) | Non-transitory computer-readable storage medium, encoding apparatus, and encoding method | |
CN107992523B (zh) | 移动应用的功能选项查找方法及终端设备 | |
JP2002125047A5 (zh) | ||
US10410632B2 (en) | Input support apparatus and computer program product | |
CN110287318B (zh) | 业务操作的检测方法及装置、存储介质、电子装置 | |
JP2015176099A (ja) | 対話システム構築支援装置、方法、及びプログラム | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
CN110634480B (zh) | 语音对话系统与模型创建装置及其方法 | |
US11227116B2 (en) | Translation device, translation method, and program | |
JP6873805B2 (ja) | 対話支援システム、対話支援方法、及び対話支援プログラム | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
US20210319481A1 (en) | System and method for summerization of customer interaction | |
JP5084297B2 (ja) | 会話解析装置および会話解析プログラム | |
JP6254504B2 (ja) | 検索サーバ、及び検索方法 | |
CN111179904A (zh) | 混合文语转换方法及装置、终端和计算机可读存储介质 | |
US7536003B2 (en) | Computer product, operator supporting apparatus, and operator supporting method | |
JP2009205357A (ja) | 中国語の品詞を判定する装置、方法およびプログラム | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 | |
US20230146105A1 (en) | Knowledge information creation assist apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |