CN107679042A - 一种面向智能语音对话系统的多层级对话分析方法 - Google Patents
一种面向智能语音对话系统的多层级对话分析方法 Download PDFInfo
- Publication number
- CN107679042A CN107679042A CN201711130800.5A CN201711130800A CN107679042A CN 107679042 A CN107679042 A CN 107679042A CN 201711130800 A CN201711130800 A CN 201711130800A CN 107679042 A CN107679042 A CN 107679042A
- Authority
- CN
- China
- Prior art keywords
- analysis
- sentence
- layer
- dialog
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 160
- 230000033764 rhythmic process Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 230000000630 rising effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 4
- 230000000692 anti-sense effect Effects 0.000 claims description 3
- 230000010287 polarization Effects 0.000 claims description 3
- 238000005211 surface analysis Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- JJLJMEJHUUYSSY-UHFFFAOYSA-L Copper hydroxide Chemical compound [OH-].[OH-].[Cu+2] JJLJMEJHUUYSSY-UHFFFAOYSA-L 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005352 clarification Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 108010022579 ATP dependent 26S protease Proteins 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 229940035289 tobi Drugs 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明属于人工智能领域,具体涉及一种面向智能语音对话系统的多层级对话分析方法。目的是针对现有汉语口语对话标注体系不完善的问题,提升对话理解的自然度和准确性。该方法包括对输入的语音进行语音识别得到对应文本;结合语音和文本信息进行韵律层面分析;对文本进行句法层面分析;对文本进行语义层面分析;对本文进行语用层面分析。该方法利用句法、语义、语用和韵律4个层面,根据从词语到话段的语言单位层级确定各个层面的维度集合,将各个层面的分析结合起来,使智能对话系统能更好的理解谈话对方的意图,并提升用户体验。
Description
技术领域
本申请属于人工智能领域,涉及一种智能会话代理系统,具体涉及一种面向智能语音对话系统的多层级对话分析方法。
背景技术
对话系统是人工智能领域的一个重要分支,在语音客服代理、智能机器人等领域有广泛的应用。其主要技术包括将语音识别为文本,对文本进行自然语言理解,对理解后的问题寻找答案,将答案进行语音输出。对话系统中的自然语言理解部分是最为重要的。
近年来,国外把“对话行为”的自动识别作为口语会话自然语言理解系统的关键,其中最基本的任务是建立会话行为的分类体系。目前英文的会话行为标注体系已较为成熟,其中通用领域的代表是DAMSL,在此基础上,Jurafsky等人结合会话语料,建立了DAMSL的扩展版SWBD-DAMSL模型。近来还有更为全面的DIT(动态阐释理论)标注构架,该体系由会话行为的最早版本融合了DAMSL及其他一些标注体系的特点来构建,是对人际及人机对话进行全面的非应用分析。最新版为DIT++分类,主要分普通交际功能和特定维度交际功能。
相比而言,中文相关研究比较少,杨平在借鉴国外分类体系的基础上,建立了新闻访谈或谈话类节目的会话行为分类,然而通用性不强,句法和对话行为之间有混淆,因而分类范畴重叠。专利CN104166643A参考了DAMSL广义标签集,将其映射到汉语的对应分类,然而DAMSL本身分类有粗疏之处,且没有考虑汉语会话的特点,因而其分类值得商榷。
中文作为一种人类语言经过上千年的演化,具有一套客观的规律,有着特殊的语法规则,并可以通过说话人语音的变化传达出不同的语义与意图。尽管语言学上对中文有很多系统的研究,但如何将人类语言标记成机器可以理解的语言却极为困难。目前的对话系统,多采用将问句中的关键词与语料库中问句的关键词进行匹配而找到相应答句的方法。但是,一个理想的智能的对话系统,在理解语义层的信息意图之外,还需要解析语用层的交际意图,而交际意图既与语言形式有关,也与语义信息有关,需要在句法分析和语义分析之外加入对话行为,实现句法、语义、语用相结合的话语分析。此外,基于交际语言学的会话分析方法重视韵律的作用。因此,如何根据交际任务建立适切的言语行为类型集合,如何表示从词语到话段的层级性,以及如何建立韵律与不同层面标注集合之间的关系,是完善的智能对话系统需要解决的问题。
发明内容
针对现有汉语口语对话标注体系不完善的问题,本发明提供了一种面向智能语音对话系统的多层级对话分析方法,包含韵律、句法、语义、语用各个层面相互关联的维度信息,通过对不同层级语言单位之间相互作用的分析,将对话分析引向深入,提升了对话理解的自然度和准确性。
为了实现上述目的,本发明的采用的技术方案如下:
一种面向智能语音对话系统的多层级对话分析方法,包括如下步骤:
步骤一、对输入的语音进行语音识别得到对应文本;
步骤二、结合语音和文本信息进行韵律层面分析;
步骤三、对文本进行句法层面分析;
步骤四、对语音和文本进行语义层面分析;
步骤五、对本文进行语用层面分析。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤二中,首先根据语音和文本信息进行韵律结构划分,基于韵律结构进行重音层、语调层和间隔层,并进行副语言层的分析;步骤三中,所述句法层面分析包括对词语进行词性分析,对短语进行短语结构分析,对单句进行句型分析和句类分析;步骤四中,所述语义层面分析包括对短语进行信息结构分析,对话轮进行修辞结构分析,对话段进行话题分析;步骤五中,所述语用层面分析包括言语行为动词分析,对话轮进行对答类型和交际功能分析,对话段进行对答形式结构分析。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤二中,所述韵律结构为韵律词、韵律短语和语调短语,对所述韵律词进行重音分析,按照由弱到强分为1-4的重音等级;在韵律短语边界处根据音高不同,分为两个等级;在语调短语边界处根据音调变化,标记降调、低升调和升调三种情况。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤三中,所述短语结构分析将短语结构分类,包括主谓、述宾、偏正、述补、联合结构;所述句型分析将单句分为主谓句和非主谓;所述句类分析中的句类包括陈述句、疑问句、祈使句、感叹句。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤四中,所述信息结构包括指称范畴和词汇范畴;所述修辞结构分析以话轮为基本单位,是对话轮间语义承继关系的表示;所述话题分析是对话段的主题进行分析。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤五中,所述言语行为动词分析是将言语行为动词分类,包括断言式、指令式、承诺式、表情式、宣告式;所述对答类型分析首先确定话轮为引发语还是应答语,再确定所述话轮所属邻近对类别,然后根据所述话轮的话语来源、句类或信息结构来确定相应的对答类型标签。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤四中,利用词汇表现形式和句法来确定指称范畴;利用不同层次的词义上下位关系和整体部分关系以及同一层次的同义反义等关系来确定词汇范畴。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤四中,修辞结构包括条件、辩解、对比、目的、解释等,先设定具有修辞关系的关联词语,再利用话轮中的关联词语来判定所述话轮的修辞结构。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤五中、所述交际功能分析利用对答类型、任务进程、句法和信息结构特征对话轮进行分析。
如上所述的一种面向智能语音对话系统的多层级对话分析方法,其中:步骤五中,对答形式结构分析中的毗邻式包括毗邻双部式和毗邻多部式;所述毗邻双部式指由相邻的引发语和应答语两部分构成的对答形式;毗邻多部式对答由分属不同话轮的两个以上的相邻语句构成;所述嵌入式对答形式包括单层嵌入式、多层嵌入式、毗邻与嵌入综合式。
与现有技术相比,本发明具有以下优点:
本发明涉及的方法首先提供了适用于汉语口语对话的四个话语分析层面:句法、语义、语用和韵律层面,根据从词语到话段的语言单位层级确定各个层面的维度集合。各个正交的维度标签由若干互斥特征组成。会话分析是自下而上的,包括语音标注和文本标注两个步骤,高层级语言单位的标签的确定会受到低层级标签的影响和制约。
通过结合语音和文本信息进行韵律层面分析,并通过韵律层与其他层面的交互作用,将语音和文本线索结合以用于对话分析,把韵律中体现的交际意图充分表示出来,使得对话行为分析更加全面准确。
通过句型和句类的分析,把句子结构信息和语气信息分别表示出来,句类作为句法层面的维度,对语用层面的对答类型有直接影响,通过分析句法层对语用层的决定作用,解决了已有研究将句法和对话行为混淆的问题。
通过采用信息结构、修辞结构和话题的分析,把不同层级(名词性成分、话轮、话段)的语义信息充分表示出来。此外还根据语料分析对现有理论框架进一步完善,比如结合汉语特点提出名词性成分指称范畴和词汇范畴的确定方式,以及结合口语对话特征提出适用于汉语的修辞结构模式。
通过采用语用层面的对答类型和交际功能进行对话行为分析,将韵律、句法和语义层面的线索综合起来,对答类型主要用于表示通用的口语对话交际意图,而交际功能又兼顾了具体任务类型和进程,因而将静态和动态分析结合起来,有助于提升智能对话管理的有效性。
本标注体系以非自由谈话的电话录音语料为样本,以言语行为为核心,结合会话行为标注体系,根据汉语口语进行了调整,构建了句法、语义、语用和韵律相结合的多层级对话分析表示方法。该方法对各个层面进行多种分析,使智能对话系统能更好的理解谈话对方的意图,并提升用户体验。
附图说明
图1是本发明提供的一种面向智能语音对话系统的多层级对话分析方法的流程示意图。
图2a-d是本发明提供的方法实施例中步骤二与步骤四中的部分标注结果示意图,其中:tone表示语调层,break表示间隔层,stress表示重音层,referential表示指称范畴,lexical表示词汇范畴,paralinguistic表示副语言层。
图3是本发明提供的一种面向智能语音对话系统的多层级对话分析方法的结果示意图,其文本中1表示客服,2表示用户。
具体实施方式
下面详述本发明的实施例,所述实施例的示例在附图中示出,其描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明提供的一种面向智能语音对话系统的多层级对话分析方法,综合利用语音、文本信息进行韵律层分析、句法层分析、语音层分析和语用层分析;在韵律层分析中,对韵律词进行重音分析,对韵律边界进行边界语调、音高和间隔分析,并进行副语言层分析;在句法层分析中对词语进行词类分析,对短语进行短语结构分析,对单句进行句型和句类分析;在语义层分析中,对短语进行信息结构分析,对话轮进行修辞结构分析,对话段进行话题分析;在语用层分析中,对词语进行言语行为动词分析,对话轮进行对答类型和交际功能分析;对话段进行对答形式结构分析。每一层的分析即为对相应结构加注标签,每一层级的标签集合由包含若干特征的正交维度组成,同一维度的特征之间是互斥的。各个层面的标签集合如表1所示:
表1:各语言单位层级的对话分析维度
对话分析的韵律层面需使用语音信息,其中重音的划分与信息结构相关,因而韵律层面各维度(重音、边界音高、语调和间隔)及信息结构随语音标注;其余句法、语义、语用层面的标签用于文本。
在语言单位中,话轮和话段是会话分析的基本单位。话轮是指会话过程中,一方说话者在任意时间内连续说出的一番话,其结尾以说话者或听话者的角色互换或各方的沉默为标志。话轮标注的同时也标注出话语来源。
话段由围绕一个共同话题的若干话轮组成,若同一话轮中的句子分属不同主题,则将该话轮分割为不同话段的两个话轮。
进一步的,如图1所示,一种面向智能语音对话系统的多层级对话分析方法,具体分为如下步骤:
步骤一、对输入的语音进行语音识别得到对应文本。
步骤二、结合语音和文本信息进行韵律层面分析。首先根据语音和文本信息进行韵律结构划分,韵律结构可以是韵律词、韵律短语、语调短语等,韵律结构的边界即为韵律边界。基于韵律结构进行重音层、语调层、间隔层和副语言层的分析。对韵律词进行重音分析,按照由弱到强分为1-4的重音等级。重音等级的划分可参考C-ToBI体系。
对韵律边界的分析包括语调、音高分析和间隔分析。如表2所示,边界语调标记在语调短语边界处,分为降调、低升调和升调;边界音高标记在韵律短语边界处,分为音高较高和较低。
表2:语调层的标注符号
对于音调高低的区分可以采用设置阈值的方法,也可以采用聚类等方法。
间隔分析符号用(+)表示0.2-0.5秒的间隔,用(++)表示0.5-1秒的间隔,1秒以上的间隔用具体秒数表示,0.2秒以下停顿为默认时长,不作表示。若话轮转换处无停顿则用“=”连接。非正常停顿用“p”,表示伴随非流利现象的突然的语调切断。
副语言层包含了含混、吸气、拖长音、填充停顿以及叠接、插话等未完句信息,不受韵律结构的限制。副语言信息可用于推测说话人的情感态度,也是保持或放弃话轮的标志。其中,吸气用<hhh>表示。双斜线之间的内容“//XXX//”表示重叠的话语。句末短停顿以及吸气是保持话轮标志。拖长音用冒号表示,每一个冒号表示拖长一拍;拖长音可能是保持话轮或是表达不确定。括号内加省略号(……)表示听不清的含混内容,括号内的文字(XXX)表示听不太清的可能的内容,这两者都负载了多重维度的韵律信息,比如音强弱,语速快,音高降低等。
图2给出了该步骤的标注结果示意图。
步骤三、对语音识别后的文本进行句法层面分析,具体包括词性分析,短语结构分析,句型分析和句类分析。其中词性分析将词语分为名词(noun)、动词(verb)、形容词(adjective)、数词(numeral)、量词(quantifier)、副词(adverb)、代词(pronoun)、叹词(interjection)、介词(preposition)、连词(conjunction)、助词(particle)、语气词(modal)。其中代词按作用分为人称代词、疑问代词、指示代词,指示代词有近指远指的区别,往往暗示说话人态度的转变。
短语结构分析将短语标记为主谓(SP)、述宾(VO)、偏正(MD)、述补(VC)、联合结构(PS)结构;可只考虑短语的直接组成成分的基本结构关系,不考虑组成成分内部的结构和层次。也可以将特殊类型短语如“量词短语、方位短语”等也加以标记。
句型分析将单句分为主谓句和非主谓句。句型是针对单句以及复句中的分句依句子结构特点划分的句子类别。
句类分析是根据句子的语气分出的句子类别,包括陈述句、疑问句、祈使句、感叹句。其中疑问句根据提问手段进一步分为是非问、特指问(包括有疑问词和无疑问词两种情况)、选择问、反问句。句型和句类的中英文名称及标签如表3所示:
表3:句型和句类的中英文名称及其标签
具体标注句法特征时句类和句型间用连字符表示,非主谓句的短语结构类型和词性标注在括号内,形式为“句型(短语结构/词性)-句类”。如nsp(VO)-qw2表示述宾结构的非主谓句,有疑问词的特指问。
句类的确定既需要参考韵律特征(如边界语调),也取决于低层级单位的语法特征(如词性等),其对应关系表4所示:
表4:句类和语法、韵律特征的关系
步骤四、对文本进行语义层面分析,具体包括信息结构分析,修辞结构分析和话题分析。
信息是由新旧交替而产生的,每一个信息单位由旧信息和新信息组成。在本标注体系中,主要采用指称范畴(R-categories)和词汇范畴(L-categories)来表示信息结构。指称范畴主要用来区分出现在自然篇章中指称性的限定词短语DP(Determiner phrases)与介词短语PP(Prepositional phrases)。词汇范畴主要用来区分实词与非指称性短语的信息结构。由于汉语利用词汇表现形式以及句法功能来确定指称范畴,不同词汇形式的名词性成分,如人称代词、专有名词、“这/那”+(量词)+名词、光杆普通名词(无修饰语)、数词+(量词)+名词、“一”+(量词)+名词、量词+名词等对应的指称范畴不同。其对应关系如表5所示。
表5:指称范畴与名词性成分词汇形式的对应关系
名词性成分的词汇形式 | 指称范畴标签 |
人称代词 | R-given-sit |
专有名词 | R-unused |
“这/那”+(量词)+名词 | R-given/R-bridging |
光杆普通名词 | R-new/R-generic/R-bridging |
数词+(量词)+名词 | R-new/R-bridging |
“一”+(量词)+名词 | R-new/R-generic/R-bridging |
量词+名词 | R-new/R-generic/R-bridging |
词汇范畴考虑不同层次的词义上下位关系和整体部分关系以及同一层次的同义反义等关系。本发明将词汇范畴分为下位——上位关系、上位——下位关系、部分——整体关系、整体——部分关系、同义关系、反义关系、顺序关系和依存关系。上述关系可通过预先构建词汇关系列表(例如WordNet)等方法实现。词汇范畴及其标签如表6所示。
表6:词汇范畴及其标签
词汇范畴 | 标签 |
下位——上位 | L-given |
上位——下位 | L-accessible |
部分——整体 | L-given |
整体——部分 | L-accessible |
同义关系 | L-given |
反义关系 | L-accessible |
顺序关系 | L-accessible |
依存关系 | L-accessible |
与静态的词汇范畴不同,指称范畴的最终判定需要依据该指称在场景或事件中的可激活度,是动态的。图2给出了指称范畴与词汇范畴的标注结果示例。
修辞结构一般是对成段文本的语篇分析,通过描述各部分的修辞关系来分析篇章的结构和功能。在非自由谈话式的口语对话中,修辞结构分析以话轮为基本单位,是对话轮间语义承继关系的描写。最基本的修辞关系有两种,分别是具有不对称性的核心-卫星关系(即单核心关系)和无主次之分的多核心关系。单核心关系可包括的关系集有条件、详述、解释、意愿性原因、意愿性结果、非意愿性原因、非意愿性结果、目的、证据、证明、动机、辩解,多核心关系主要为对比关系。上述关系可通过检测话轮中关键词语(例如连词“因为”“所以”等)而获得。其标签如表7所示:
表7:修辞结构及其标签
修辞关系和复句中的逻辑关联词有对应关系,可以参考话轮中的关联词语进行判定,修辞关系及其常用的关联词举例如表8所示:
表8:修辞关系与其对应的关联词语举例
话题分析是对话段的主题进行分析。话题由具体交际任务决定,是划分话段的依据,包括任务相关和任务无关两类。任务无关的话题包括开启、结束交际的话段以及与任务达成无关的话语。任务相关话题划分的程度取决于交际任务的信息复杂度。话题在句法结构中一般是充当主语的名词性成分,可承前省略,句首名词性成分的信息结构往往决定了话题的转移或保留。
步骤五、对本文进行语用层面分析。语用层面分析具体可包括言语行为动词分析,对话轮进行对答类型和交际功能分析,对话段进行对答形式结构分析。
言语行为动词分析是将言语行为动词分为断言式(assertives),如估计、判断、鉴定、认为、否认等动词;指令式(directives),如询问、命令、要求、邀请、劝告、警告等动词;承诺式(commissives),如承诺、保证、许诺、答应等动词;表情式(expressives),如感谢、道歉、欢迎、祝贺等动词;宣告式(declarations),如命名、宣告、提名等动词。言语行为动词的分类可通过预建词表或词语聚类的方法得到。
对答类型分析是对每个话轮标注对答类型标签。一个话轮可以包括多个句子,因打断或重叠而造成的未完成话轮成为半话轮。
在对话系统中,双方话轮通常为对答形式(例如一问一答,互问你好等),这样可将对答的话轮分为引发语和应答语。例如“一问一答”中的“问”则为引发语,“答”则为应答语,这就构成了引发语—应答语邻近对。
在进行对答类型分析时,首先确定话轮的角色(为引发语还是应答语),再确定其所属邻近对类别,根据这两者来添加对答类型标签。
对答类型划分标准主要根据应答语的范围,一个话轮基本对应于一个对答类型,偶尔存在一对多的情况。除了非有效话轮之外,多数对答类型都作为引发语或应答语之一而成对出现。
表9中,若某一话轮为引发语中的感谢对答类型,则其对应的标签为Thanking。若某一话轮为应答语中的拒绝对答类型,则其对应的标签为Refuse。
表9:对答类型标签集
对表9中对答类型的说明如下:
社交对答类型的特征是话轮位于会话首尾话段及其中的表情式行为动词。而行为商讨类型的特征是话轮的指令式或承诺式言语行为动词。
在信息转移类型中,确认、询问和质疑都是引发语,可以运用相同的句法形式,其差别主要在于信息结构与句类的不同。确认和质疑都是用于确立共知语境,确认的对象一般为已知信息,肯定语气较强。而质疑可以直接反问也可以提出负面证据反驳,语气一般为否定。
告知是可以引发询问、确认或质疑的不包含明显态度和感情色彩的信息转移类型。告知和回答根据修辞方式可进一步分为详述、辩解、条件、意愿结果、证据、动机等类型。修辞小类标写在括号中,如“告知(辩解)”等。其中详述是对概念内涵或相关细节进行描述,辩解的前提是说话人预设对方上一话轮的询问或确认存在误解。
反馈语不争夺话轮也不提供新信息,包括表示赞同或接受的正反馈和表示迟疑的负反馈。正反馈是无标记的,负反馈是有标记的。反馈可以出现在对答之后也可以出现在较长的引发语之间,听者表示上述信息已了解,说者可继续信息传递。反馈后的长时停顿往往是转移话轮的标志。
在口语对话中,社交对答类型一般出现在对话的始末,邻接出现,而信息转移类和行为商讨的对答未必相邻,比如询问和回答之间可以插入要求补充信息的“询问——回答”邻近对,行为商讨类型的对答之间也可以插入多个信息转移类型对答。
对答类型主要由句类、信息结构和话语来源(表现对答双方的交际地位)决定,其对应关系如下:
表10:对答类型与句类、信息结构的对应关系
由于对答类型多由邻近对组成,所以邻近对的语法特征也存在照应关系。
交际功能分析与对答类型分析单位相同,但与之不同的是,对答类型一般是静态的成对出现的,交际功能是以任务为导向的动态逻辑线索贯穿始终的。对于非自由交谈式口语对话而言,交际功能分为三大类,任务管理、任务相关和任务无关。理想的任务相关模块只有任务推进和任务完成,然而现实中由于交际双方沟通不畅或存在信息差,而导致认知基础构建差异,因而任务相关模块还包括意义协商的过程,即要求澄清和说明解释、要求重复,放弃话轮以及转移话轮等。交际功能及其标签如表11所示,其中,若某一话轮的交际功能为开启对话则其标签为Opening;若某一话轮的交际功能为同意完成,则其标签为Fulfillment Agreement。
表11:交际功能标签集
交际功能可成对或非成对出现,一个话轮一般只有唯一的交际功能模块,偶尔会出现包含两个交际功能模块的情形。
交际功能大类与对答类型大类存在对应关系。任务管理类交际功能主要对应于社交对答类型和行为商讨类,而任务相关类对应于信息转移类。下表举例说明如何由对答类型、句类、信息结构和任务进程得到交际功能。对答类型和交际功能之间一一对应时,可以直接由对答类型匹配交际功能,若出现一对多的情况时,交际功能的确定需要参考任务进程、句类以及信息结构等线索。
任务进程以任务开启和任务结束两个节点划分为任务开始前,任务进行中和任务结束后三个阶段。社交对答类型主要出现于任务开始前和任务结束后阶段。任务开启的标志是第一个充当引发语的信息转移或行为商讨类话轮。任务结束的标志是最后一个不含社交对答类型的话段的结束。交际功能的确定过程举例如表12所示:
表12:对答类型、句类、信息结构与交际功能的关系举例
对答形式结构分析将话段分为毗邻式和嵌入式两大类。其中毗邻式包括毗邻双部式和毗邻多部式。毗邻双部式指由相邻的引发语和应答语两部分构成的对答形式。套环式对答序列多见于交际双方都积极主动的热络交谈中,不适用于“客服—用户”双方任务导向的陌生对谈中。而纯粹的问答式多见于一方积极主动一方消极被动的会话中,在成功的电话推销业务中比较少见。
毗邻多部式对答由分属不同话轮的两个以上的相邻语句构成。这种结构的中间部分兼有引发语和应答语双重功能,它既是上一个话轮的应答语,又是下一个话轮的引发语。在客服主导的营销业务语音对话中比较常见。
嵌入式对答序列包括单层嵌入式、多层嵌入式、毗邻与嵌入综合式。单层嵌入式指对答的引发语和应答语之间嵌入了另一个对答结构,多层嵌入式指引发语和应答语之间嵌入了若干个对答结构,毗邻与嵌入综合式指在对答的引发语和应答语之间嵌入了毗邻式对答的结构形式。
在智能客服代理的通信场景中,对话的始末往往是由毗邻双部式开启结束话题,而交际任务进程往往由毗邻多部式组合而成,客服会在回答之外提供更多信息,澄清解释或将任务推进,从而引发客户针对解释信息的更多提问。从而将会话引向深入而不限于简单的问答。对答形式结构及其标签如表13所示:
表13:对答形式结构及其标签
在上述各分析步骤中,可以采用给出的规则方法进行自动标注;也可以先采用人工标注部分训练集来训练多个预测模型,再利用各个预测模型进行各步骤的标注。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。
Claims (10)
1.一种面向智能语音对话系统的多层级对话分析方法,包括如下步骤:
步骤一、对输入的语音进行语音识别得到对应文本;
步骤二、结合语音和文本信息进行韵律层面分析;
步骤三、对文本进行句法层面分析;
步骤四、对语音和文本进行语义层面分析;
步骤五、对本文进行语用层面分析。
2.如权利要求1所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤二中,首先根据语音和文本信息进行韵律结构划分,基于韵律结构进行重音层、语调层和间隔层,并进行副语言层的分析;步骤三中,所述句法层面分析包括对词语进行词性分析,对短语进行短语结构分析,对单句进行句型分析和句类分析;步骤四中,所述语义层面分析包括对短语进行信息结构分析,对话轮进行修辞结构分析,对话段进行话题分析;步骤五中,所述语用层面分析包括言语行为动词分析,对话轮进行对答类型和交际功能分析,对话段进行对答形式结构分析。
3.如权利要求2所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤二中,所述韵律结构为韵律词、韵律短语和语调短语,对所述韵律词进行重音分析,按照由弱到强分为1-4的重音等级;在韵律短语边界处根据音高不同,分为两个等级;在语调短语边界处根据音调变化,标记降调、低升调和升调三种情况。
4.如权利要求2所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤三中,所述短语结构分析将短语结构分类,包括主谓、述宾、偏正、述补、联合结构;所述句型分析将单句分为主谓句和非主谓;所述句类分析中的句类包括陈述句、疑问句、祈使句、感叹句。
5.如权利要求2所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤四中,所述信息结构包括指称范畴和词汇范畴;所述修辞结构分析以话轮为基本单位,是对话轮间语义承继关系的表示;所述话题分析是对话段的主题进行分析。
6.如权利要求2所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤五中,所述言语行为动词分析是将言语行为动词分类,包括断言式、指令式、承诺式、表情式、宣告式;所述对答类型分析首先确定话轮为引发语还是应答语,再确定所述话轮所属邻近对类别,然后根据所述话轮的话语来源、句类或信息结构来确定相应的对答类型标签。
7.如权利要求5所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤四中,利用词汇表现形式和句法来确定指称范畴;利用不同层次的词义上下位关系和整体部分关系以及同一层次的同义反义等关系来确定词汇范畴。
8.如权利要求5所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤四中,修辞结构包括条件、辩解、对比、目的、解释等,先设定具有修辞关系的关联词语,再利用话轮中的关联词语来判定所述话轮的修辞结构。
9.如权利要求2或6所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤五中、所述交际功能分析利用对答类型、任务进程、句法和信息结构特征对话轮进行分析。
10.如权利要求6所述的一种面向智能语音对话系统的多层级对话分析方法,其特征在于:步骤五中,对答形式结构分析中的毗邻式包括毗邻双部式和毗邻多部式;所述毗邻双部式指由相邻的引发语和应答语两部分构成的对答形式;毗邻多部式对答由分属不同话轮的两个以上的相邻语句构成;所述嵌入式对答形式包括单层嵌入式、多层嵌入式、毗邻与嵌入综合式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711130800.5A CN107679042B (zh) | 2017-11-15 | 2017-11-15 | 一种面向智能语音对话系统的多层级对话分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711130800.5A CN107679042B (zh) | 2017-11-15 | 2017-11-15 | 一种面向智能语音对话系统的多层级对话分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679042A true CN107679042A (zh) | 2018-02-09 |
CN107679042B CN107679042B (zh) | 2021-02-05 |
Family
ID=61149307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711130800.5A Active CN107679042B (zh) | 2017-11-15 | 2017-11-15 | 一种面向智能语音对话系统的多层级对话分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679042B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285550A (zh) * | 2018-09-14 | 2019-01-29 | 中科智云科技(珠海)有限公司 | 基于软交换技术的语音对话智能分析方法 |
CN109461438A (zh) * | 2018-12-19 | 2019-03-12 | 合肥讯飞数码科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN109783820A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
CN109977407A (zh) * | 2019-03-27 | 2019-07-05 | 北京信息科技大学 | 一种基于词嵌入的书面语篇多层次差异分析方法 |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
CN110688858A (zh) * | 2019-09-17 | 2020-01-14 | 平安科技(深圳)有限公司 | 语义解析方法、装置、电子设备及存储介质 |
CN110895657A (zh) * | 2018-09-11 | 2020-03-20 | 慧捷(上海)科技股份有限公司 | 一种基于口语对话特征的语义逻辑表达和分析方法 |
CN111048167A (zh) * | 2019-10-31 | 2020-04-21 | 中电药明数据科技(成都)有限公司 | 一种层级式病例结构化方法及系统 |
CN111078937A (zh) * | 2019-12-27 | 2020-04-28 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
TWI694790B (zh) * | 2018-05-24 | 2020-06-01 | 仁寶電腦工業股份有限公司 | 智慧酒櫃及酒款產區相關服務的處理方法 |
WO2020147609A1 (zh) * | 2019-01-18 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN111475206A (zh) * | 2019-01-04 | 2020-07-31 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
CN113380234A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 基于语音识别生成表单的方法、装置、设备及介质 |
CN113488026A (zh) * | 2021-09-02 | 2021-10-08 | 水木智库(北京)科技有限公司 | 基于语用信息的语音理解模型生成方法和智能语音交互方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484217A (zh) * | 2003-07-11 | 2004-03-24 | 中国科学院声学研究所 | 层次分类与逻辑相结合的自然口语对话描述方法 |
US20090119102A1 (en) * | 2007-11-01 | 2009-05-07 | At&T Labs | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
-
2017
- 2017-11-15 CN CN201711130800.5A patent/CN107679042B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484217A (zh) * | 2003-07-11 | 2004-03-24 | 中国科学院声学研究所 | 层次分类与逻辑相结合的自然口语对话描述方法 |
US20090119102A1 (en) * | 2007-11-01 | 2009-05-07 | At&T Labs | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
Non-Patent Citations (2)
Title |
---|
姚双云: "话语标记的信息处理研究:现状与设想", 《武陵学刊》 * |
魏松: "人机对话系统中若干关键问题研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI694790B (zh) * | 2018-05-24 | 2020-06-01 | 仁寶電腦工業股份有限公司 | 智慧酒櫃及酒款產區相關服務的處理方法 |
CN110895657B (zh) * | 2018-09-11 | 2023-05-26 | 慧捷(上海)科技股份有限公司 | 一种基于口语对话特征的语义逻辑表达和分析方法 |
CN110895657A (zh) * | 2018-09-11 | 2020-03-20 | 慧捷(上海)科技股份有限公司 | 一种基于口语对话特征的语义逻辑表达和分析方法 |
CN109285550A (zh) * | 2018-09-14 | 2019-01-29 | 中科智云科技(珠海)有限公司 | 基于软交换技术的语音对话智能分析方法 |
CN109461438A (zh) * | 2018-12-19 | 2019-03-12 | 合肥讯飞数码科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN109461438B (zh) * | 2018-12-19 | 2022-06-14 | 合肥讯飞数码科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111475206A (zh) * | 2019-01-04 | 2020-07-31 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
CN109783820A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
WO2020147609A1 (zh) * | 2019-01-18 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN109977407A (zh) * | 2019-03-27 | 2019-07-05 | 北京信息科技大学 | 一种基于词嵌入的书面语篇多层次差异分析方法 |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
WO2021051584A1 (zh) * | 2019-09-17 | 2021-03-25 | 平安科技(深圳)有限公司 | 语义解析方法、装置、电子设备及存储介质 |
CN110688858A (zh) * | 2019-09-17 | 2020-01-14 | 平安科技(深圳)有限公司 | 语义解析方法、装置、电子设备及存储介质 |
CN111048167A (zh) * | 2019-10-31 | 2020-04-21 | 中电药明数据科技(成都)有限公司 | 一种层级式病例结构化方法及系统 |
CN111048167B (zh) * | 2019-10-31 | 2023-08-18 | 中电药明数据科技(成都)有限公司 | 一种层级式病例结构化方法及系统 |
CN111078937A (zh) * | 2019-12-27 | 2020-04-28 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
CN113380234A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 基于语音识别生成表单的方法、装置、设备及介质 |
CN113488026A (zh) * | 2021-09-02 | 2021-10-08 | 水木智库(北京)科技有限公司 | 基于语用信息的语音理解模型生成方法和智能语音交互方法 |
CN113488026B (zh) * | 2021-09-02 | 2021-12-21 | 水木智库(北京)科技有限公司 | 基于语用信息的语音理解模型生成方法和智能语音交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107679042B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679042A (zh) | 一种面向智能语音对话系统的多层级对话分析方法 | |
Ayanouz et al. | A smart chatbot architecture based NLP and machine learning for health care assistance | |
Wilkins et al. | When GO means COME: Questioning the basicness of basic motion verbs | |
Dijk | Studies in the Pragmatics of Discourse | |
Adger et al. | Variation in English syntax: theoretical implications | |
Lindström et al. | Constructing reasoning | |
Newell et al. | The rôle of natural language processing in alternative and augmentative communication | |
Petukhova | Multidimensional dialogue modelling | |
WO2019189489A1 (ja) | 応答文生成装置、応答文生成方法、およびプログラム | |
Churcher et al. | Dialogue management systems: a survey and overview | |
Ptaszynski et al. | A system for affect analysis of utterances in Japanese supported with web mining | |
Chojnicka | Reportive evidentiality and reported speech: is there a boundary? Evidence of the Latvian oblique | |
CN108763355A (zh) | 一种基于用户的智能机器人交互数据处理系统及方法 | |
Verdonik et al. | Annotating discourse markers in spontaneous speech corpora on an example for the Slovenian language | |
Carpenter et al. | The role and identification of dialog acts in online chat | |
CN107832293B (zh) | 一种面向非自由谈话式汉语口语的对话行为分析方法 | |
Xue et al. | Annotating the discourse and dialogue structure of SMS message conversations | |
Garoufi | Towards a better understanding of applied textual entailment | |
Petukhova et al. | Dimensions of communication | |
Benz | Partial blocking and associative learning | |
Mehta et al. | Developing a conversational agent using ontologies | |
Zernik et al. | Disambiguation and language acquisition through the phrasal lexicon | |
Wang et al. | Understanding differences between human language processing and natural language processing by the synchronized model | |
Rush | A Computer Assisted Language Analysis System. | |
Xiao et al. | Situation Aspect as a Universal Aspect*: Implications for Artificial Languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |