CN106021233B

CN106021233B - 基于文本语境信息层级量化的转喻加工实验方法及应用

Info

Publication number: CN106021233B
Application number: CN201610353189.1A
Authority: CN
Inventors: 李捷
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2018-07-27
Anticipated expiration: 2036-05-24
Also published as: CN106021233A

Abstract

本发明涉及一种基于文本语境信息层级量化的转喻加工实验方法，包括：确定转喻目标词，获取待处理文本语境信息；将所述的待处理文本语境信息呈现的自然语境分割出数个语义单位；对所述的语义单位与所述的转喻目标词的语义进行相关性评估，并将评估结果进行标注，建成语料库；使用同义词、上义词等替换所述的语义单位，以实现转喻目标词所在语境的层级处理，形成可操控的语境信息条件；操控所述语境信息条件，进行转喻加工实验。所述方法可应用于其它非本义语（如隐喻、反语等）的心理学实验，尤其可用于人机（机器人—人类）之间的会话开发系统，为定性、定量研究的基础上找出语言结构、交际语境、语用意义提供了一种切实可行的方法。

Description

基于文本语境信息层级量化的转喻加工实验方法及应用

技术领域

本发明涉及语言心理认知技术及人工智能科学领域，尤其涉及一种基于文本语境信息层级量化的转喻加工实验方法及应用。

背景技术

当前语言心理实验的焦点已从单个词语理解（语义学中心）转移到语境条件下的话语理解/语用意义，因为语境中的话语意思才具有交际意义。当前机器人还停留在“机器”而非“人”的时代，主要是由于人机智能对话问题尚未解决关键问题：人机进行多个话轮后，机器人会陷入严重滞后甚至答非所问的瘫痪局面，而不能像人类之间的会话顺畅推进，根本原因是机器人因缺乏精准语境信息加工而不能自动识别语用意义，因而不能作出合适应答。本发明通过层级语境信息的切割，实现语用意义的精准识别。语用意义自动识别的首要任务是要在定性、定量研究的基础上找出语言结构、交际语境、语用意义三者间的相互关系, 并借助一定的形式化手段对它们分别进行表征, 然后建模确立三者之间的关系。语用意义即讲话人意图, 是语言结构在具体交际语境中的动态体现。动态的语用意义自动识别研究比静态的句法意义的自动别识更加艰难，首要任务是解决语境的量化问题，本发明要解决的重要问题即为语境量化问题，以便更精准地实现语境因素的操作处理，为语用意义的智能识别提供技术支持。另一方面，当前心理语言学实验中，采取的是自然语境法，即在对语境信息不作任何处理的条件下来研究语用意义，这跟传统的语用意义分析本质上没有太大区别——因为这种方法不能区分出究竟是何种语言语境信息单位在何种程度上对语用意义的解读起作用，而作为量化研究，心理语言学的语用研究应该解决这个问题。要解决这个问题，就需要发明一种语境层级量化的技术及方法，这样才能批量用于心理语言学的实验研究，并顺带解决人机智能会话滞后及瘫痪的问题。

发明内容

本发明针对目前心理语言学实验及人机会话智能系统中无法精准地测量单个语境信息对语用意义的影响的问题，实现了语境信息的层级操控，发明了一种基于文本语境信息层级量化的转喻加工实验方法及应用，以解决心理语言学的实验技术问题及人机会话开发系统的现有问题。

该发明的具体技术方案如下：

一种基于文本语境信息层级量化的转喻加工实验方法及应用，包括：

确定转喻目标词，获取待处理文本语境信息；

将所述的待处理文本语境信息呈现的自然语境分割出数个语义单位；

对所述的语义单位与所述的转喻目标词的语义进行相关性评估，并将评估结果进行标注，建成语料库；

使用同义词、上义词等替换所述的语义单位，对目标语所在的语境进行不同层级的处理，形成可操控的层级语境信息，并基于所述的语境信息条件进行转喻加工研究。

作为一种优选的方式，还包括将所述的语义单位按与所述的转喻目标词的语义的相关性强弱进行排列，得到一个按与转喻目标词语义相关度强弱的列表。列表的作用在于，将看似宽泛的、杂乱的语境信息单位以精准的方式开列出来，更清楚地展示出语境信息单位与目标词语义的相关度强弱。

作为一种优选的方式，采用分级量表测定法对所述的语境信息语义单位与所述的转喻目标词的语义进行相关性评估，以便更精准地实现语境因素的操作处理，为语用意义的智能识别提供了技术支持。

分级量表测定法由大学以上文化、认知及行为能力正常的本族语人士的认知和选择为分级测定基础，使统计的分级更精准。一般采用七级量表测定法进行。

所述的基于文本语境信息层级量化的转喻加工实验方法可应用于语言心理学实验，也可用于人工智能的人机会话开发系统，为定性、定量研究的基础上找出语言结构、交际语境、语用意义提供了一种切实可行的方法。

附图说明

图1是评估量表示意图；

图2是第一位相关语境信息单位列表生成技术示范图；

图3是第五位相关语境信息单位列表生成技术示范图；

图4是层级语境条件形成示意图；

图5是本发明所述基于文本语境信息层级量化的转喻加工实验方法实现流程图。

具体实施方式

一种基于文本语境信息层级量化的转喻加工实验方法，具体实现如下：

如图5所示为本发明所述基于文本语境信息层级量化的转喻加工实验方法的流程图。确定转喻目标词，获取待处理文本语境信息为步骤1。

步骤2，将语境信息进行分割，得到语义单位。进行语义单位分割可人工分割，也可利用软件进行分割。分割的语义单位为具有完整语义的语义单位。

步骤3，采用七级量表法对这些语义单位与目标语的语义进行相关性评估。

受试需在问卷上以转喻目标语语义为中心，按与目标语相关程度强弱作出评估（见图1）。其中受试人数不少于90名，且须为大学以上文化、认知及行为能力正常的本族语人士，可确保对语义单位的选择精准。

步骤4，将评估结果进行标注，建成语料库。将步骤3的结果采用“材料组号码+语境信息相关程度”进行标注，将最相关的标记为 1XX，次相关的标记为2YY，第三相关的为3ZZ，依次类推,记为NKK（相关排位+语境信息），建立语料库。对于一般的语用加工心理实验，优选5-10个语境信息单位编码放入语料库作为研究焦点即可。如果用于人机会话系统，则需要将所有语境信息单位全部编码并放入语料库，以便计算机穷极提取及加工处理。

步骤5，将以上语义单位按相关性强弱进行降序排列，使用AntConc 等语料库软件进行提取。

步骤6，得到一个按与转喻目标词语语义相关度强弱的列表。

步骤7，使用同义词、上义词等替换语义单位的方式对转喻目标语所在的语境进行不同水平的处理，形成转喻几个的层级语境实验条件。

示例：

例如研究以下语境信息单位中的转喻目标词“歪嘴”的加工过程，其实验语境量化步骤为：

乡下村庄的路边或田野边，总有些野生的桃树，它们所结的桃子叫毛桃，也叫歪嘴桃子，因为它们长相多半不规则，但滋味很特别，酸甜而脆。“骑黄牛，吃歪嘴”是我们那一带小孩子的两大童年趣事。

第一步：分割文本语境信息单位（人工或语义软件均可）

乡下｜村庄的｜路边｜或｜田野边，总｜有些｜野生的｜桃树，它们｜所结的｜桃子｜叫｜毛桃，也｜叫｜歪嘴｜桃子，因为｜它们｜长相｜多半｜不规则，但｜滋味｜很特别，酸甜而脆。“骑黄牛，吃歪嘴”是｜我们｜那一带｜小孩子的｜两大｜童年｜趣事。

第二步：150位中文硕士研究生参加评估，评估量表为图1所示，与“歪嘴”最相关的为1XX，其次为2XX，依此类托，最不相关的为7XX。

第三步：将所得评估结果编码，如“11毛桃”、“11歪嘴桃”等，表示“语料1”中与目标词“歪嘴”最为相关的语境信息单位有“毛桃”、“歪嘴桃”等，但究竟哪个最为相关呢？如图2所示，根据频数统计结果，应该是“毛桃”；同理，如图3所示，“15趣事”表示“语料1”中与目标词“歪嘴”第五相关的语境信息有“趣事”，而且频数结果显示“趣事”也是这个层级里面最为相关的。

第四步：进行语境信息的替换，这里我们依次替换与目标词语“歪嘴”相关例如使用毛桃的上义词“野果”对最相关的语境信息“毛桃”进行替换，可得到如图4所示的层级语境。

原始语境信息：

层级语境条件1（替换1个语境信息单位）：

乡下村庄的路边或田野边，总有些野生的桃树，它们所结的桃子叫野果，也叫歪嘴桃子，因为它们长相多半不规则，但滋味很特别，酸甜而脆。“骑黄牛，吃歪嘴”是我们那一带小孩子的两大童年趣事。

层级语境条件2（替换2个语境信息单位）：

乡下村庄的路边或田野边，总有些野生的桃树，它们所结的桃子叫野果，也叫歪嘴桃子，因为它们长相多半不规则，但滋味很特别，酸甜而脆。“骑黄牛，吃歪嘴”是我们那一带小孩子的两大童年活动。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于文本语境信息层级量化的转喻加工方法，其特征在于，包括：确定转喻目标词，获取待处理文本语境信息；将所述的待处理文本语境信息呈现的自然语境分割出数个语义单位；对所述的语义单位与所述的转喻目标词的语义进行相关性评估，并将评估结果进行标注，建成语料库；使用同义词、上义词替换所述的语义单位，对目标语所在的语境进行不同层级的处理，形成可操控的层级语境信息，并基于所述的语境信息条件进行转喻加工。

2.根据权利要求1所述的基于文本语境信息层级量化的转喻加工方法，其特征在于，将所述的语义单位按与所述的转喻目标词的语义的相关性强弱进行排列，得到一个按与转喻目标词语义相关度强弱的列表。

3.根据权利要求1所述的基于文本语境信息层级量化的转喻加工方法，其特征在于，采用分级量表测定法对所述的语义单位与所述的转喻目标词的语义进行相关性评估。

4.根据权利要求3所述的基于文本语境信息层级量化的转喻加工方法，其特征在于，所述的分级量表测定法由大学以上文化、认知及行为能力正常的本族语人士的认知和选择为分级测定基础。

5.根据权利要求3所述的基于文本语境信息层级量化的转喻加工方法，其特征在于，所述的分级量表测定法分为七级。

6.根据权利要求1-5任一项所述的基于文本语境信息层级量化的转喻加工方法，其特征在于，该方法应用于语言心理学实验。

7.根据权利要求1-5任一项所述的基于文本语境信息层级量化的转喻加工方法，其特征在于，该方法应用于人工智能领域的机器人与人类会话(人机会话)开发系统。