CN116226332B - 一种基于概念隐喻理论的隐喻生成方法及系统 - Google Patents
一种基于概念隐喻理论的隐喻生成方法及系统 Download PDFInfo
- Publication number
- CN116226332B CN116226332B CN202310168330.0A CN202310168330A CN116226332B CN 116226332 B CN116226332 B CN 116226332B CN 202310168330 A CN202310168330 A CN 202310168330A CN 116226332 B CN116226332 B CN 116226332B
- Authority
- CN
- China
- Prior art keywords
- metaphor
- sentence
- source
- model
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 105
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 239000003550 marker Substances 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 abstract 1
- 230000006872 improvement Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于概念隐喻理论的隐喻生成方法及系统,涉及自然语言处理技术领域,包括:采集文本构建隐喻生成语料库,包括成对存在的隐喻句和非隐喻句;获取隐喻词和平替词的义原,分别作为源域和目标域;构建源域‑目标域映射表;以各非隐喻句为基础,结合源域‑目标域映射表构造隐喻模型的输入,将对应的隐喻句作为输出,训练并获得隐喻模型;对非隐喻句获取其动词的义原得到目标域;基于源域‑目标域映射表,得到该目标域的所有映射,根据概率标签抽样得到一个目标域‑源域映射关系;基于该非隐喻句及该目标域‑源域映射关系构造隐喻模型的输入,输入隐喻模型,生成动词性隐喻句。本发明填补了中文隐喻生成领域的空白。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种基于概念隐喻理论的隐喻生成方法及系统。
背景技术
概念是人们进行抽象思维的基本元素,人们的推理、想象等心理活动必须通过借助于对概念的加工而进行。语言作为思维交流的重要工具,对概念进行修辞加工是一种常见的语言现象。其中,概念的隐喻化一直是语言学研究中的重要问题。隐喻是指一个认知域中的概念系统地用于对另外一个认知域中的概念进行表达,这种表达在大多数情况下是自动化的、不被人所意识到的,甚至很多情况下,隐喻化的表达已成为了词的本义,只有通过隐喻,人们才能表达这些概念,如山“脚”(身体范畴表达地理概念)、“重”要(知觉范畴表达价值概念)、贬“低”(空间范畴表达情感概念)。针对隐喻现象的解释,传统语义学把隐喻看作是词义的替代或变换,这种观点局限于仅从语言的角度看待隐喻。
现代认知理论的出现使研究者开始从认知机制对隐喻现象进行分析,概念隐喻理论得以提出。概念隐喻理论认为隐喻是人们借助具体的、有形的、简单的源域概念(如温度、空间、动作等)来表达和理解抽象的、无形的、复杂的目标域概念(如心理感受、社会关系、道德等),从而实现抽象思维。隐喻反映了人类认知演化发展的过程和思维的基本方式,隐喻为了解人类的认知提供了一个视窗。因此在对话系统中如何理解隐喻和生成隐喻也是自然处理领域一直以来的研究热点。
在概念隐喻理论的指导下,在英文隐喻生成领域已经有一些探索性工作,但是在中文隐喻生成领域仍是一片空白。
发明内容
针对上述问题,本发明提供了一种基于概念隐喻理论的隐喻生成方法及系统,聚焦隐喻动词的生成,以概念隐喻理论为指导理论,以BART模型为基础架构,训练BART模型学习从目标域到源域的映射,通过习得的映射把目标域的非隐喻动词替换成对应源域的隐喻动词,填补在中文隐喻生成领域的空白。
为实现上述目的,本发明提供了一种基于概念隐喻理论的隐喻生成方法,包括:
采集文本,构建隐喻生成语料库,包括:成对存在的隐喻句和非隐喻句;
获取各隐喻句中隐喻词的义原作为源域,获取各非隐喻句中平替词的义原作为目标域;
基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;
基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,将对应的隐喻句作为对应的输出,训练并获得隐喻模型;
对需生成隐喻的非隐喻句,获取该非隐喻句中动词的义原得到目标域;
基于所述源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,根据所述概率标签抽样得到一个目标域-源域映射关系;
基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,输入所述隐喻模型,所述隐喻模型自回归生成动词性隐喻句。
作为本发明的进一步改进,所述构建隐喻生成语料库,包括:
采集富含修辞手法的各种文本类型的文本,来源包括:互联网、现有语料库和书籍资料;
对文本依次进行筛选、预处理,得到可利用的文本;
对可利用的文本进行标准化隐喻识别程序处理,使文本中每一个词都标注有隐喻标签,隐喻标签包括0和1,0表示无隐喻,1表示隐喻;
对标注后的文本中每个标签为1的词,寻找对应的无隐喻的平替词;
使用各平替词替换对应隐喻词得到各非隐喻句;
各非隐喻句与未替换隐喻词的各原隐喻句成对保存,得到隐喻生成语料库。
作为本发明的进一步改进,所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;包括:
基于隐喻词和平替词的对应关系,将各隐喻词的义原与对应的各平替词的义原对应起来,得到源域-目标域映射关系;
将所有的源域-目标域映射关系计入同一表中,并根据各源域-目标域映射关系出现的频率得到其概率标签,得到具有概率标签的源域-目标域映射表。
作为本发明的进一步改进,基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,包括:
基于非隐喻句中的平替词的义原,随机获取一个源域-目标域映射关系,基于该源域-目标域映射关系得到隐喻词的义原;
将隐喻词的义原放于非隐喻句的句首,并设置分隔符与该非隐喻句隔开;
将平替词的义原接于非隐喻句中平替词的后面,并设置连接符与平替词连接;
设置标记符,在非隐喻句中的平替词前、平替词义原后分别添加,给隐喻模型标记需要更改的位置,得到隐喻模型的输入。
作为本发明的进一步改进,训练并获得隐喻模型,包括:
将所述隐喻生成语料库分为训练集和验证集;
将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型,并采用反向传播算法进行训练;
通过验证集对各阶段的BART预训练模型进行正确率验证,当正确率不再提高时终止训练,保存模型参数,得到隐喻模型。
本发明还提供了一种基于概念隐喻理论的隐喻生成系统,包括:数据准备模块、模型训练模块、模型输入构建模块和隐喻生成模块;
所述数据准备模块,用于:
采集文本,构建隐喻生成语料库,包括:成对存在的隐喻句和非隐喻句;
获取各隐喻句中隐喻词的义原作为源域,获取各非隐喻句中平替词的义原作为目标域;
基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;
所述模型训练模块,用于:
基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,将对应的隐喻句作为对应的输出,训练并获得隐喻模型;
所述模型输入构建模块,用于:
对需生成隐喻的非隐喻句,获取该非隐喻句中动词的义原得到目标域;
基于所述源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,根据所述概率标签抽样得到一个目标域-源域映射关系;
所述隐喻生成模块,用于:
基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,输入所述隐喻模型,所述隐喻模型自回归生成动词性隐喻句。
作为本发明的进一步改进,所述构建隐喻生成语料库,包括:
采集富含修辞手法的各种文本类型的文本,来源包括:互联网、现有语料库和书籍资料;
对文本依次进行筛选、预处理,得到可利用的文本;
对可利用的文本进行标准化隐喻识别程序处理,使文本中每一个词都标注有隐喻标签,隐喻标签包括0和1,0表示无隐喻,1表示隐喻;
对标注后的文本中每个标签为1的词,寻找对应的无隐喻的平替词;
使用各平替词替换对应隐喻词得到各非隐喻句;
各非隐喻句与未替换隐喻词的各原隐喻句成对保存,得到隐喻生成语料库。
作为本发明的进一步改进,所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;包括:
基于隐喻词和平替词的对应关系,将各隐喻词的义原与对应的各平替词的义原对应起来,得到源域-目标域映射关系;
将所有的源域-目标域映射关系计入同一表中,并根据各源域-目标域映射关系出现的频率得到其概率标签,得到具有概率标签的源域-目标域映射表。
作为本发明的进一步改进,基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,包括:
基于非隐喻句中的平替词的义原,随机获取一个源域-目标域映射关系,基于该源域-目标域映射关系得到隐喻词的义原;
将隐喻词的义原放于非隐喻句的句首,并设置分隔符与该非隐喻句隔开;
将平替词的义原接于非隐喻句中平替词的后面,并设置连接符与平替词连接;
设置标记符,在非隐喻句中的平替词前、平替词义原后分别添加,给隐喻模型标记需要更改的位置,得到隐喻模型的输入。
作为本发明的进一步改进,训练并获得隐喻模型,包括:
将所述隐喻生成语料库分为训练集和验证集;
将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型,并采用反向传播算法进行训练;
通过验证集对各阶段的BART预训练模型进行正确率验证,当正确率不再提高时终止训练,保存模型参数,得到隐喻模型。
与现有技术相比,本发明的有益效果为:
本发明首次提出了中文隐喻生成的方法,既有坚实的理论基础,又具有很好的实践效果,有助于提高AI对话系统的拟人度,同时,填补了中文隐喻生成领域的这一空白,对后续相关研究具有一定的指导和启发意义。
附图说明
图1为本发明一种实施例公开的基于概念隐喻理论的隐喻生成方法流程图;
图2为本发明一种实施例公开的基于概念隐喻理论的隐喻生成系统示意图;
图3为本发明一种实施例公开的隐喻模型的输入对应的隐喻输出示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,实施例中步骤S1、S2……不限定本发明的唯一执行步骤。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
隐喻表达中动词通常扮演非常重要的角色,在动词性隐喻中动词通常是连接源域和目标域的关键所在,因此本发明聚焦于隐喻性动词的生成,以概念隐喻理论为指导理论,以BART模型为基础架构,使模型在训练过程中学习到从目标域到源域的映射,而后在生成过程中应用这一习得的映射把对应目标域的平替词替换成对应源域的隐喻性动词,实现隐喻的生成。
如图1所示,本发明提供的一种基于概念隐喻理论的隐喻生成方法,包括:
S1、采集文本,构建隐喻生成语料库,包括:成对存在的隐喻句和非隐喻句;
其中,
采集覆盖小说、散文、杂文、神话、寓言故事、戏剧、网络博客、微博评论、歌词等富含修辞手法的各种文本类型的文本,来源主要包括:互联网、现有语料库和书籍资料;如:采集到3万条文本;
对文本依次进行筛选、预处理,得到可利用的文本6千条;
对可利用的文本进行标准化隐喻识别程序(Metaphor identificationprocedure,MIP)处理,使文本中每一个词都标注有隐喻标签,隐喻标签包括0和1,0表示无隐喻,1表示隐喻;
对标注后的文本中每个标签为1的词,寻找对应的平替词(相同语义但不带有隐喻性);
使用各平替词替换对应隐喻词得到各非隐喻句;
各非隐喻句与未替换隐喻词的各原隐喻句成对保存,得到隐喻生成语料库。
S2、根据知网,获取隐喻生成语料库中各隐喻句中隐喻词的义原作为源域,获取隐喻生成语料库中各非隐喻句中平替词的义原作为目标域;
S3、基于所有源域和目标域构建具有概率标签的源域-目标域映射表;
其中,
基于隐喻词和平替词的对应关系,将各隐喻词的义原与对应的各平替词的义原对应起来,得到源域-目标域映射关系;
将所有的源域-目标域映射关系计入同一表中,并根据各源域-目标域映射关系出现的频率得到其概率标签,得到具有概率标签的源域-目标域映射表。
S4、基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合源域-目标域映射表构造隐喻模型的输入,将对应的隐喻句作为对应的输出,训练并获得隐喻模型;
其中,
(1)基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合源域-目标域映射表构造隐喻模型的输入,包括:
基于非隐喻句中的平替词的义原,随机获取一个源域-目标域映射关系,基于该源域-目标域映射关系得到隐喻词的义原;
如图3所示了,将隐喻词的义原放于非隐喻句的句首,并设置分隔符“<BOS>”与该非隐喻句隔开;
将平替词的义原接于非隐喻句中平替词的后面,并设置连接符“:”与平替词连接;
设置标记符“<V>”,在非隐喻句中的平替词前、平替词义原后分别添加,给隐喻模型标记需要更改的位置,得到隐喻模型的输入。
(2)训练并获得隐喻模型,包括:
将隐喻生成语料库按照8:2的比例分为训练集和验证集;
将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型,训练集中每一个输入文本经过编码器进行编码,然后进入解码器进行解码;
采用反向传播算法进行训练,每次迭代采用最小批的方式计算网络误差和更新权重;
通过验证集对各阶段的BART预训练模型进行正确率验证,当正确率不再提高时终止训练,保存模型参数,得到隐喻模型。
S5、对需生成隐喻的非隐喻句,获取该非隐喻句中动词的义原得到目标域;
其中,
同样的,采用步骤S2中相同的方法,即通过知网获取该非隐喻句中动词的义原。
S6、基于源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,根据概率标签抽样得到一个目标域-源域映射关系;
其中,
可以采取随机抽样的方式,也可采取最大概率抽样的方式获取目标域-源域映射关系。
S7、基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,输入隐喻模型,隐喻模型自回归生成动词性隐喻句。
如图2所示,本发明还提供了一种基于概念隐喻理论的隐喻生成系统,包括:数据准备模块、模型训练模块、模型输入构建模块和隐喻生成模块;
数据准备模块,用于:
(1)采集文本,构建隐喻生成语料库,包括:成对存在的隐喻句和非隐喻句;
其中,
采集覆盖小说、散文、杂文、神话、寓言故事、戏剧、网络博客、微博评论、歌词等富含修辞手法的各种文本类型的文本,来源主要包括:互联网、现有语料库和书籍资料;如:采集到3万条文本;
对文本依次进行筛选、预处理,得到可利用的文本6千条;
对可利用的文本进行标准化隐喻识别程序(Metaphor identificationprocedure,MIP)处理,使文本中每一个词都标注有隐喻标签,隐喻标签包括0和1,0表示无隐喻,1表示隐喻;
对标注后的文本中每个标签为1的词,寻找对应的平替词(相同语义但不带有隐喻性);
使用各平替词替换对应隐喻词得到各非隐喻句;
各非隐喻句与未替换隐喻词的各原隐喻句成对保存,得到隐喻生成语料库。
(2)根据知网,获取各隐喻句中隐喻词的义原作为源域,获取各非隐喻句中平替词的义原作为目标域;
(3)基于所有源域和目标域构建具有概率标签的源域-目标域映射表;
其中,
基于隐喻词和平替词的对应关系,将各隐喻词的义原与对应的各平替词的义原对应起来,得到源域-目标域映射关系;
将所有的源域-目标域映射关系计入同一表中,并根据各源域-目标域映射关系出现的频率得到其概率标签,得到具有概率标签的源域-目标域映射表。
模型训练模块,用于:
基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合源域-目标域映射表构造隐喻模型的输入,将对应的隐喻句作为对应的输出,训练并获得隐喻模型;
其中,
1)基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合源域-目标域映射表构造隐喻模型的输入,包括:
基于非隐喻句中的平替词的义原,随机获取一个源域-目标域映射关系,基于该源域-目标域映射关系得到隐喻词的义原;
如图3所示了,将隐喻词的义原放于非隐喻句的句首,并设置分隔符“<BOS>”与该非隐喻句隔开;
将平替词的义原接于非隐喻句中平替词的后面,并设置连接符“:”与平替词连接;
设置标记符“<V>”,在非隐喻句中的平替词前、平替词义原后分别添加,给隐喻模型标记需要更改的位置,得到隐喻模型的输入。
2)训练并获得隐喻模型,包括:
将隐喻生成语料库按照8:2的比例分为训练集和验证集;
将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型,训练集中每一个输入文本经过编码器进行编码,然后进入解码器进行解码;
采用反向传播算法进行训练,每次迭代采用最小批的方式计算网络误差和更新权重;
通过验证集对各阶段的BART预训练模型进行正确率验证,当正确率不再提高时终止训练,保存模型参数,得到隐喻模型。
模型输入构建模块,用于:
(1)对需生成隐喻的非隐喻句,获取该非隐喻句中动词的义原得到目标域;
其中,
同样的,采用步骤S2中相同的方法,即通过知网获取该非隐喻句中动词的义原。
(2)基于源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,根据概率标签抽样得到一个目标域-源域映射关系;
其中,
可以采取随机抽样的方式,也可采取最大概率抽样的方式获取目标域-源域映射关系。
隐喻生成模块,用于:
基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,输入隐喻模型,隐喻模型自回归生成动词性隐喻句。
实施例:
如图3所示,对非隐喻句“这辆汽车很耗油”基于隐喻模型生成隐喻,过程包括:
步骤1、对需生成隐喻的非隐喻句,通过知网获取该非隐喻句中动词的义原得到目标域;即,获取动词“耗”的义原为“耗费”
步骤2、基于源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,如:
步骤3、采取最大概率抽样的方式,根据概率标签抽样得到一个目标域-源域映射关系;即:耗费-吃;
步骤4、基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,具体为:
首先,把句中动词对应的隐喻词的义原“吃”放于句首,作为隐喻映射的源域来指导模型生成的方向,后接“<BOS>”作为分隔符;
然后,把平替词“耗”的义原“耗费”接到平替词后,中间以“:”作为连接符;
最后,在平替词“耗”前、平替词义原“耗费”后分别添加“<V>”作为标记符,用于给模型标记需要更改的位置,得到隐喻模型的输入。
步骤5、将隐喻模型的输入,输入到隐喻模型,隐喻模型自回归生成动词性隐喻句,即:这辆车很吃油。
本发明的优点:
本发明首次提出了中文隐喻生成的方法,既有坚实的理论基础,又具有很好的实践效果,有助于提高AI对话系统的拟人度,同时,填补了中文隐喻生成领域的这一空白,对后续相关研究具有一定的指导和启发意义。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于概念隐喻理论的隐喻生成方法,其特征在于,包括:
采集文本,构建隐喻生成语料库,包括:成对存在的隐喻句和非隐喻句;
获取各隐喻句中隐喻词的义原作为源域,获取各非隐喻句中平替词的义原作为目标域;
基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;
基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,将对应的隐喻句作为对应的输出,训练并获得隐喻模型;
对需生成隐喻的非隐喻句,获取该非隐喻句中动词的义原得到目标域;
基于所述源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,根据所述概率标签抽样得到一个目标域-源域映射关系;
基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,输入所述隐喻模型,所述隐喻模型自回归生成动词性隐喻句。
2.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法,其特征在于:所述构建隐喻生成语料库,包括:
采集富含修辞手法的各种文本类型的文本,来源包括:互联网、现有语料库和书籍资料;
对文本依次进行筛选、预处理,得到可利用的文本;
对可利用的文本进行标准化隐喻识别程序处理,使文本中每一个词都标注有隐喻标签,隐喻标签包括0和1,0表示无隐喻,1表示隐喻;
对标注后的文本中每个标签为1的词,寻找对应的无隐喻的平替词;
使用各平替词替换对应隐喻词得到各非隐喻句;
各非隐喻句与未替换隐喻词的各原隐喻句成对保存,得到隐喻生成语料库。
3.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法,其特征在于:所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;包括:
基于隐喻词和平替词的对应关系,将各隐喻词的义原与对应的各平替词的义原对应起来,得到源域-目标域映射关系;
将所有的源域-目标域映射关系计入同一表中,并根据各源域-目标域映射关系出现的频率得到其概率标签,得到具有概率标签的源域-目标域映射表。
4.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法,其特征在于:基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,包括:
基于非隐喻句中的平替词的义原,随机获取一个源域-目标域映射关系,基于该源域-目标域映射关系得到隐喻词的义原;
将隐喻词的义原放于非隐喻句的句首,并设置分隔符与该非隐喻句隔开;
将平替词的义原接于非隐喻句中平替词的后面,并设置连接符与平替词连接;
设置标记符,在非隐喻句中的平替词前、平替词义原后分别添加,给隐喻模型标记需要更改的位置,得到隐喻模型的输入。
5.根据权利要求1所述的基于概念隐喻理论的隐喻生成方法,其特征在于:训练并获得隐喻模型,包括:
将所述隐喻生成语料库分为训练集和验证集;
将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型,并采用反向传播算法进行训练;
通过验证集对各阶段的BART预训练模型进行正确率验证,当正确率不再提高时终止训练,保存模型参数,得到隐喻模型。
6.一种基于概念隐喻理论的隐喻生成系统,其特征在于,包括:数据准备模块、模型训练模块、模型输入构建模块和隐喻生成模块;
所述数据准备模块,用于:
采集文本,构建隐喻生成语料库,包括:成对存在的隐喻句和非隐喻句;
获取各隐喻句中隐喻词的义原作为源域,获取各非隐喻句中平替词的义原作为目标域;
基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;
所述模型训练模块,用于:
基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,将对应的隐喻句作为对应的输出,训练并获得隐喻模型;
所述模型输入构建模块,用于:
对需生成隐喻的非隐喻句,获取该非隐喻句中动词的义原得到目标域;
基于所述源域-目标域映射表,得到该目标域的所有映射及各映射的概率标签,根据所述概率标签抽样得到一个目标域-源域映射关系;
所述隐喻生成模块,用于:
基于该非隐喻句及该目标域-源域映射关系构造隐喻模型的输入,输入所述隐喻模型,所述隐喻模型自回归生成动词性隐喻句。
7.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统,其特征在于:所述构建隐喻生成语料库,包括:
采集富含修辞手法的各种文本类型的文本,来源包括:互联网、现有语料库和书籍资料;
对文本依次进行筛选、预处理,得到可利用的文本;
对可利用的文本进行标准化隐喻识别程序处理,使文本中每一个词都标注有隐喻标签,隐喻标签包括0和1,0表示无隐喻,1表示隐喻;
对标注后的文本中每个标签为1的词,寻找对应的无隐喻的平替词;
使用各平替词替换对应隐喻词得到各非隐喻句;
各非隐喻句与未替换隐喻词的各原隐喻句成对保存,得到隐喻生成语料库。
8.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统,其特征在于:所述基于所有所述源域和目标域构建具有概率标签的源域-目标域映射表;包括:
基于隐喻词和平替词的对应关系,将各隐喻词的义原与对应的各平替词的义原对应起来,得到源域-目标域映射关系;
将所有的源域-目标域映射关系计入同一表中,并根据各源域-目标域映射关系出现的频率得到其概率标签,得到具有概率标签的源域-目标域映射表。
9.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统,其特征在于:基于成对存在的隐喻句和非隐喻句,以各非隐喻句为基础,结合所述源域-目标域映射表构造隐喻模型的输入,包括:
基于非隐喻句中的平替词的义原,随机获取一个源域-目标域映射关系,基于该源域-目标域映射关系得到隐喻词的义原;
将隐喻词的义原放于非隐喻句的句首,并设置分隔符与该非隐喻句隔开;
将平替词的义原接于非隐喻句中平替词的后面,并设置连接符与平替词连接;
设置标记符,在非隐喻句中的平替词前、平替词义原后分别添加,给隐喻模型标记需要更改的位置,得到隐喻模型的输入。
10.根据权利要求6所述的基于概念隐喻理论的隐喻生成系统,其特征在于:训练并获得隐喻模型,包括:
将所述隐喻生成语料库分为训练集和验证集;
将训练集中隐喻模型的输入及对应的输出一同输入BART预训练模型,并采用反向传播算法进行训练;
通过验证集对各阶段的BART预训练模型进行正确率验证,当正确率不再提高时终止训练,保存模型参数,得到隐喻模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168330.0A CN116226332B (zh) | 2023-02-24 | 2023-02-24 | 一种基于概念隐喻理论的隐喻生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168330.0A CN116226332B (zh) | 2023-02-24 | 2023-02-24 | 一种基于概念隐喻理论的隐喻生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226332A CN116226332A (zh) | 2023-06-06 |
CN116226332B true CN116226332B (zh) | 2024-02-06 |
Family
ID=86581992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310168330.0A Active CN116226332B (zh) | 2023-02-24 | 2023-02-24 | 一种基于概念隐喻理论的隐喻生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226332B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078894A (zh) * | 2019-12-17 | 2020-04-28 | 中国科学院遥感与数字地球研究所 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
CN111241824A (zh) * | 2020-01-09 | 2020-06-05 | 中国搜索信息科技股份有限公司 | 一种用于中文隐喻信息识别的方法 |
CN112632963A (zh) * | 2020-12-17 | 2021-04-09 | 绍兴达道生涯教育信息咨询有限公司 | 基于政府工作报告的中文隐喻信息知识库构建方法、装置 |
CN113191142A (zh) * | 2021-05-08 | 2021-07-30 | 清华大学 | 基于上下文的引文推荐方法、装置、电子设备和存储介质 |
CN114021575A (zh) * | 2021-10-20 | 2022-02-08 | 杭州电子科技大学 | 一种基于语义匹配和密度聚类的中文隐喻释义方法 |
CN114661861A (zh) * | 2022-02-23 | 2022-06-24 | 华院计算技术(上海)股份有限公司 | 文本匹配方法及装置、存储介质、终端 |
CN114942991A (zh) * | 2022-03-10 | 2022-08-26 | 华院计算技术(上海)股份有限公司 | 一种基于隐喻识别的情感分类模型构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8712759B2 (en) * | 2009-11-13 | 2014-04-29 | Clausal Computing Oy | Specializing disambiguation of a natural language expression |
US10503767B2 (en) * | 2016-09-13 | 2019-12-10 | Microsoft Technology Licensing, Llc | Computerized natural language query intent dispatching |
-
2023
- 2023-02-24 CN CN202310168330.0A patent/CN116226332B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078894A (zh) * | 2019-12-17 | 2020-04-28 | 中国科学院遥感与数字地球研究所 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
CN111241824A (zh) * | 2020-01-09 | 2020-06-05 | 中国搜索信息科技股份有限公司 | 一种用于中文隐喻信息识别的方法 |
CN112632963A (zh) * | 2020-12-17 | 2021-04-09 | 绍兴达道生涯教育信息咨询有限公司 | 基于政府工作报告的中文隐喻信息知识库构建方法、装置 |
CN113191142A (zh) * | 2021-05-08 | 2021-07-30 | 清华大学 | 基于上下文的引文推荐方法、装置、电子设备和存储介质 |
CN114021575A (zh) * | 2021-10-20 | 2022-02-08 | 杭州电子科技大学 | 一种基于语义匹配和密度聚类的中文隐喻释义方法 |
CN114661861A (zh) * | 2022-02-23 | 2022-06-24 | 华院计算技术(上海)股份有限公司 | 文本匹配方法及装置、存储介质、终端 |
CN114942991A (zh) * | 2022-03-10 | 2022-08-26 | 华院计算技术(上海)股份有限公司 | 一种基于隐喻识别的情感分类模型构建方法 |
Non-Patent Citations (2)
Title |
---|
Artificial immune systems for Artificial Olfaction data analysis: Comparison between AIRS and ANN models;S. De Vito,等;《The 2010 International Joint Conference on Neural Networks (IJCNN)》;第1-7页 * |
基于词汇范畴和语义相似的显性情感隐喻识别机制;林鸿飞;许侃;任惠;;大连理工大学学报(第05期);第142-147页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116226332A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Toledo et al. | Information extraction from historical handwritten document images with a context-aware neural model | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN117371973A (zh) | 基于知识图谱检索增强的语言模型毕业生就业服务系统 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
CN112380868A (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
Şenel et al. | Measuring cross-lingual semantic similarity across European languages | |
CN116226332B (zh) | 一种基于概念隐喻理论的隐喻生成方法及系统 | |
Reisi et al. | Authorship attribution in historical and literary texts by a deep learning classifier | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
Boonpa et al. | Relationship extraction from Thai children's tales for generating illustration | |
Halterman et al. | Creating an automated event data system for arabic text | |
Jiang et al. | Transfer learning based recurrent neural network algorithm for linguistic analysis | |
CN114896978B (zh) | 基于多图协作语义网络的实体识别方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |