CN106021233B - 基于文本语境信息层级量化的转喻加工实验方法及应用 - Google Patents
基于文本语境信息层级量化的转喻加工实验方法及应用 Download PDFInfo
- Publication number
- CN106021233B CN106021233B CN201610353189.1A CN201610353189A CN106021233B CN 106021233 B CN106021233 B CN 106021233B CN 201610353189 A CN201610353189 A CN 201610353189A CN 106021233 B CN106021233 B CN 106021233B
- Authority
- CN
- China
- Prior art keywords
- metonymy
- ambience information
- language ambience
- text language
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及一种基于文本语境信息层级量化的转喻加工实验方法,包括:确定转喻目标词,获取待处理文本语境信息;将所述的待处理文本语境信息呈现的自然语境分割出数个语义单位;对所述的语义单位与所述的转喻目标词的语义进行相关性评估,并将评估结果进行标注,建成语料库;使用同义词、上义词等替换所述的语义单位,以实现转喻目标词所在语境的层级处理,形成可操控的语境信息条件;操控所述语境信息条件,进行转喻加工实验。所述方法可应用于其它非本义语(如隐喻、反语等)的心理学实验,尤其可用于人机(机器人—人类)之间的会话开发系统,为定性、定量研究的基础上找出语言结构、交际语境、语用意义提供了一种切实可行的方法。
Description
技术领域
本发明涉及语言心理认知技术及人工智能科学领域,尤其涉及一种基于文本语境信息层级量化的转喻加工实验方法及应用。
背景技术
当前语言心理实验的焦点已从单个词语理解(语义学中心)转移到语境条件下的话语理解/语用意义,因为语境中的话语意思才具有交际意义。当前机器人还停留在“机器”而非“人”的时代,主要是由于人机智能对话问题尚未解决关键问题:人机进行多个话轮后,机器人会陷入严重滞后甚至答非所问的瘫痪局面,而不能像人类之间的会话顺畅推进,根本原因是机器人因缺乏精准语境信息加工而不能自动识别语用意义,因而不能作出合适应答。本发明通过层级语境信息的切割,实现语用意义的精准识别。语用意义自动识别的首要任务是要在定性、定量研究的基础上找出语言结构、交际语境、语用意义三者间的相互关系, 并借助一定的形式化手段对它们分别进行表征, 然后建模确立三者之间的关系。语用意义即讲话人意图, 是语言结构在具体交际语境中的动态体现。动态的语用意义自动识别研究比静态的句法意义的自动别识更加艰难,首要任务是解决语境的量化问题,本发明要解决的重要问题即为语境量化问题,以便更精准地实现语境因素的操作处理,为语用意义的智能识别提供技术支持。另一方面,当前心理语言学实验中,采取的是自然语境法,即在对语境信息不作任何处理的条件下来研究语用意义,这跟传统的语用意义分析本质上没有太大区别——因为这种方法不能区分出究竟是何种语言语境信息单位在何种程度上对语用意义的解读起作用,而作为量化研究,心理语言学的语用研究应该解决这个问题。要解决这个问题,就需要发明一种语境层级量化的技术及方法,这样才能批量用于心理语言学的实验研究,并顺带解决人机智能会话滞后及瘫痪的问题。
发明内容
本发明针对目前心理语言学实验及人机会话智能系统中无法精准地测量单个语境信息对语用意义的影响的问题,实现了语境信息的层级操控,发明了一种基于文本语境信息层级量化的转喻加工实验方法及应用,以解决心理语言学的实验技术问题及人机会话开发系统的现有问题。
该发明的具体技术方案如下:
一种基于文本语境信息层级量化的转喻加工实验方法及应用,包括:
确定转喻目标词,获取待处理文本语境信息;
将所述的待处理文本语境信息呈现的自然语境分割出数个语义单位;
对所述的语义单位与所述的转喻目标词的语义进行相关性评估,并将评估结果进行标注,建成语料库;
使用同义词、上义词等替换所述的语义单位,对目标语所在的语境进行不同层级的处理,形成可操控的层级语境信息,并基于所述的语境信息条件进行转喻加工研究。
作为一种优选的方式,还包括将所述的语义单位按与所述的转喻目标词的语义的相关性强弱进行排列,得到一个按与转喻目标词语义相关度强弱的列表。列表的作用在于,将看似宽泛的、杂乱的语境信息单位以精准的方式开列出来,更清楚地展示出语境信息单位与目标词语义的相关度强弱。
作为一种优选的方式,采用分级量表测定法对所述的语境信息语义单位与所述的转喻目标词的语义进行相关性评估,以便更精准地实现语境因素的操作处理,为语用意义的智能识别提供了技术支持。
分级量表测定法由大学以上文化、认知及行为能力正常的本族语人士的认知和选择为分级测定基础,使统计的分级更精准。一般采用七级量表测定法进行。
所述的基于文本语境信息层级量化的转喻加工实验方法可应用于语言心理学实验,也可用于人工智能的人机会话开发系统,为定性、定量研究的基础上找出语言结构、交际语境、语用意义提供了一种切实可行的方法。
附图说明
图1是评估量表示意图;
图2是第一位相关语境信息单位列表生成技术示范图;
图3是第五位相关语境信息单位列表生成技术示范图;
图4是层级语境条件形成示意图;
图5是本发明所述基于文本语境信息层级量化的转喻加工实验方法实现流程图。
具体实施方式
一种基于文本语境信息层级量化的转喻加工实验方法,具体实现如下:
如图5所示为本发明所述基于文本语境信息层级量化的转喻加工实验方法的流程图。确定转喻目标词,获取待处理文本语境信息为步骤1。
步骤2,将语境信息进行分割,得到语义单位。进行语义单位分割可人工分割,也可利用软件进行分割。分割的语义单位为具有完整语义的语义单位。
步骤3,采用七级量表法对这些语义单位与目标语的语义进行相关性评估。
受试需在问卷上以转喻目标语语义为中心,按与目标语相关程度强弱作出评估(见图1)。其中受试人数不少于90名,且须为大学以上文化、认知及行为能力正常的本族语人士,可确保对语义单位的选择精准。
步骤4,将评估结果进行标注,建成语料库。将步骤3的结果采用“材料组号码+语境信息相关程度”进行标注,将最相关的标记为 1XX,次相关的标记为2YY,第三相关的为3ZZ,依次类推,记为NKK(相关排位+语境信息),建立语料库。对于一般的语用加工心理实验,优选5-10个语境信息单位编码放入语料库作为研究焦点即可。如果用于人机会话系统,则需要将所有语境信息单位全部编码并放入语料库,以便计算机穷极提取及加工处理。
步骤5,将以上语义单位按相关性强弱进行降序排列,使用AntConc 等语料库软件进行提取。
步骤6,得到一个按与转喻目标词语语义相关度强弱的列表。
步骤7,使用同义词、上义词等替换语义单位的方式对转喻目标语所在的语境进行不同水平的处理,形成转喻几个的层级语境实验条件。
示例:
例如研究以下语境信息单位中的转喻目标词“歪嘴”的加工过程,其实验语境量化步骤为:
乡下村庄的路边或田野边,总有些野生的桃树,它们所结的桃子叫毛桃,也叫歪嘴桃子,因为它们长相多半不规则,但滋味很特别,酸甜而脆。“骑黄牛,吃歪嘴”是我们那一带小孩子的两大童年趣事。
第一步:分割文本语境信息单位(人工或语义软件均可)
乡下|村庄的|路边|或|田野边,总|有些|野生的|桃树,它们|所结的|桃子|叫|毛桃,也|叫|歪嘴|桃子,因为|它们|长相|多半|不规则,但|滋味|很特别,酸甜而脆。“骑黄牛,吃歪嘴”是|我们|那一带|小孩子的|两大|童年|趣事。
第二步:150位中文硕士研究生参加评估,评估量表为图1所示,与“歪嘴”最相关的为1XX,其次为2XX,依此类托,最不相关的为7XX。
第三步:将所得评估结果编码,如“11毛桃”、“11歪嘴桃”等,表示“语料1”中与目标词“歪嘴”最为相关的语境信息单位有“毛桃”、“歪嘴桃”等,但究竟哪个最为相关呢?如图2所示,根据频数统计结果,应该是“毛桃”;同理,如图3所示,“15趣事”表示“语料1”中与目标词“歪嘴”第五相关的语境信息有“趣事”,而且频数结果显示“趣事”也是这个层级里面最为相关的。
第四步:进行语境信息的替换,这里我们依次替换与目标词语“歪嘴”相关例如使用毛桃的上义词“野果”对最相关的语境信息“毛桃”进行替换,可得到如图4所示的层级语境。
原始语境信息:
乡下村庄的路边或田野边,总有些野生的桃树,它们所结的桃子叫毛桃,也叫歪嘴桃子,因为它们长相多半不规则,但滋味很特别,酸甜而脆。“骑黄牛,吃歪嘴”是我们那一带小孩子的两大童年趣事。
层级语境条件1(替换1个语境信息单位):
乡下村庄的路边或田野边,总有些野生的桃树,它们所结的桃子叫野果,也叫歪嘴桃子,因为它们长相多半不规则,但滋味很特别,酸甜而脆。“骑黄牛,吃歪嘴”是我们那一带小孩子的两大童年趣事。
层级语境条件2(替换2个语境信息单位):
乡下村庄的路边或田野边,总有些野生的桃树,它们所结的桃子叫野果,也叫歪嘴桃子,因为它们长相多半不规则,但滋味很特别,酸甜而脆。“骑黄牛,吃歪嘴”是我们那一带小孩子的两大童年活动。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于文本语境信息层级量化的转喻加工方法,其特征在于,包括:确定转喻目标词,获取待处理文本语境信息;将所述的待处理文本语境信息呈现的自然语境分割出数个语义单位;对所述的语义单位与所述的转喻目标词的语义进行相关性评估,并将评估结果进行标注,建成语料库;使用同义词、上义词替换所述的语义单位,对目标语所在的语境进行不同层级的处理,形成可操控的层级语境信息,并基于所述的语境信息条件进行转喻加工。
2.根据权利要求1所述的基于文本语境信息层级量化的转喻加工方法,其特征在于,将所述的语义单位按与所述的转喻目标词的语义的相关性强弱进行排列,得到一个按与转喻目标词语义相关度强弱的列表。
3.根据权利要求1所述的基于文本语境信息层级量化的转喻加工方法,其特征在于,采用分级量表测定法对所述的语义单位与所述的转喻目标词的语义进行相关性评估。
4.根据权利要求3所述的基于文本语境信息层级量化的转喻加工方法,其特征在于,所述的分级量表测定法由大学以上文化、认知及行为能力正常的本族语人士的认知和选择为分级测定基础。
5.根据权利要求3所述的基于文本语境信息层级量化的转喻加工方法,其特征在于,所述的分级量表测定法分为七级。
6.根据权利要求1-5任一项所述的基于文本语境信息层级量化的转喻加工方法,其特征在于,该方法应用于语言心理学实验。
7.根据权利要求1-5任一项所述的基于文本语境信息层级量化的转喻加工方法,其特征在于,该方法应用于人工智能领域的机器人与人类会话(人机会话)开发系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610353189.1A CN106021233B (zh) | 2016-05-24 | 2016-05-24 | 基于文本语境信息层级量化的转喻加工实验方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610353189.1A CN106021233B (zh) | 2016-05-24 | 2016-05-24 | 基于文本语境信息层级量化的转喻加工实验方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021233A CN106021233A (zh) | 2016-10-12 |
CN106021233B true CN106021233B (zh) | 2018-07-27 |
Family
ID=57093958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610353189.1A Active CN106021233B (zh) | 2016-05-24 | 2016-05-24 | 基于文本语境信息层级量化的转喻加工实验方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021233B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947907A (zh) * | 2017-10-31 | 2019-06-28 | 上海挖数互联网科技有限公司 | 聊天机器人的构造、响应方法及装置、存储介质、服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008373A (ja) * | 2009-06-24 | 2011-01-13 | Fuji Xerox Co Ltd | 自然言語処理装置及びプログラム |
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
JP2013058003A (ja) * | 2011-09-07 | 2013-03-28 | Fuji Xerox Co Ltd | 換喩判定プログラム及び情報処理装置 |
CN104572633A (zh) * | 2014-12-25 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种确定多义词词义的方法 |
CN105512108A (zh) * | 2015-12-11 | 2016-04-20 | 江苏大学 | 一种基于似然比估计的英语双关语识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9852379B2 (en) * | 2014-03-07 | 2017-12-26 | Educational Testing Service | Systems and methods for constructed response scoring using metaphor detection |
-
2016
- 2016-05-24 CN CN201610353189.1A patent/CN106021233B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008373A (ja) * | 2009-06-24 | 2011-01-13 | Fuji Xerox Co Ltd | 自然言語処理装置及びプログラム |
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
JP2013058003A (ja) * | 2011-09-07 | 2013-03-28 | Fuji Xerox Co Ltd | 換喩判定プログラム及び情報処理装置 |
CN104572633A (zh) * | 2014-12-25 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种确定多义词词义的方法 |
CN105512108A (zh) * | 2015-12-11 | 2016-04-20 | 江苏大学 | 一种基于似然比估计的英语双关语识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106021233A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Novendri et al. | Sentiment analysis of YouTube movie trailer comments using naïve bayes | |
CN107291795A (zh) | 一种结合动态词嵌入和词性标注的文本分类方法 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
CN103678278A (zh) | 一种中文文本情感识别方法 | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
CN104850617B (zh) | 短文本处理方法及装置 | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
CN102779220A (zh) | 英语试卷打分系统 | |
CN102681982A (zh) | 可让计算机理解的自然语言句子的自动语义识别的方法 | |
CN107423371A (zh) | 一种文本正负类情感分类方法 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN108009248A (zh) | 一种数据分类方法和系统 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
Bose et al. | RSentiment: a tool to extract meaningful insights from textual reviews | |
CN109255025A (zh) | 一种短文本分类方法 | |
Bader et al. | Multilingual sentiment analysis using latent semantic indexing and machine learning | |
Joksimovic et al. | Automated identification of verbally abusive behaviors in online discussions | |
CN109271513A (zh) | 一种文本分类方法、计算机可读储存介质及系统 | |
Smitha et al. | Meme classification using textual and visual features | |
CN106021233B (zh) | 基于文本语境信息层级量化的转喻加工实验方法及应用 | |
CN107844531A (zh) | 答案输出方法、装置和计算机设备 | |
CN110263148A (zh) | 智能简历筛选方法及装置 | |
CN109583208A (zh) | 基于移动应用评论数据的恶意软件识别方法和系统 | |
CN106326495A (zh) | 一种基于话题模型的中文文本自动分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180607 Address after: 510080 Baiyun Avenue, Guangzhou, Guangzhou, Guangdong Province, North No. Applicant after: Guangdong University of Foreign Studies Address before: 510225 Tung Sha Street, Haizhuqu District Textile Road, Guangzhou, Guangdong 24 Applicant before: Zhongkai University of Agriculture and Technology |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |