CN116821276A - 文本处理方法、装置、电子设备及存储介质 - Google Patents

文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116821276A
CN116821276A CN202211320876.5A CN202211320876A CN116821276A CN 116821276 A CN116821276 A CN 116821276A CN 202211320876 A CN202211320876 A CN 202211320876A CN 116821276 A CN116821276 A CN 116821276A
Authority
CN
China
Prior art keywords
event
pair
data
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211320876.5A
Other languages
English (en)
Inventor
程昊熠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202211320876.5A priority Critical patent/CN116821276A/zh
Priority to PCT/CN2023/120521 priority patent/WO2024087963A1/zh
Publication of CN116821276A publication Critical patent/CN116821276A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文本处理方法、装置、电子设备及存储介质。其中,所述方法包括:获取第一文本中包括的事件对数据;采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;确定所述事件对数据的第一线性相似度和第一非线性相似度以及所述事件短句对数据的第二线性相似度和第二非线性相似度;基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。

Description

文本处理方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术,具体涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
如今,随着互联网科技快速的发展,人们在互联网中产生的交互信息日益剧增,可以随时随地通过互联网获得自己想要的信息。互联网虽然给人们提供越来越快捷、多样化的信息,但它同时也产生了大量的垃圾信息,这就导致人们在寻找自己所需要的信息时耗费大量的精力,甚至无功而返。在大数据时代,如何处理大数据并筛选出有价值的信息成为了一个重要的课题。事件抽取可以帮助机器在文本中发现有价值的事件信息,将语义同指的文本内容归为一类,从而进行事件同指消解。
事件同指消解是判断不同描述方法的事件句是否指向现实生活中的同一件事,主要依赖于二者的相似度。难点就在于如何准确的计算出两个事件句之间的相似度值,如何提高相似度计算的准确性。而针对该问题,目前尚无有效解决方案。
发明内容
有鉴于此,本发明的主要目的在于提供一种文本处理方法、装置、电子设备及存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种文本处理方法,包括:
获取第一文本中包括的事件对数据;
采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
在上述方案中,所述采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据,包括:
采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;
确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;
对所述第一距离以及所述第二距离进行排序,得到排序结果;
确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;
基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。
在上述方案中,所述基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度,包括:
基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;
基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。
在上述方案中,所述方法还包括:
采用预训练模型(Bidirectional Encoder Representation fromTransformers,BERT)对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。
在上述方案中,所述事件对数据包括多个单词对数据;所述方法还包括:
获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;
基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。
在上述方案中,所述方法还包括:
采用长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对;
采用卷积神经网络(Convolutional Neural Network,CNN)对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对;
对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对;
对所述融合向量对进行第一全局最大池化层处理,得到所述第一事件向量对对应的第二事件向量对。
在上述方案中,所述确定所述事件对数据的第一线性相似度和第一非线性相似度,包括:
根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度;
其中,所述第一线性相似度包括第一余弦距离;所述第一非线性相似度包括第一双线性距离和第一单层网络距离中的至少一项。
在上述方案中,所述方法还包括:
基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对;
对所述第一事件短句向量对进行第二全局最大池化层处理,得到所述第一事件短句向量对对应的第二事件短句向量对。
在上述方案中,所述确定所述事件短句对数据的第二线性相似度和第二非线性相似度,包括:
根据所述第二事件短句向量对确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
其中,所述第二线性相似度包括第二余弦距离;所述第二非线性相似度包括第二双线性距离和第二单层网络距离中的至少一项。
本发明实施例提供一种文本处理装置,包括:
第一获取模块,用于获取第一文本中包括的事件对数据;
第一处理模块,用于采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
第一确定模块,用于确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
第二确定模块,用于基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
本发明实施例提供一种文本处理设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述任一项所述的方法。
本发明实施例提供一种存储介质,所述存储介质存储有可执行指令,当所述可执行指令被处理器执行时,实现上述任一项所述的方法。
本发明实施例提供一种文本处理方法、装置、电子设备及存储介质。其中,所述方法包括:获取第一文本中包括的事件对数据;采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。通过将所述事件对数据的第一线性相似度和第一非线性相似度以及所述事件短句对数据的第二线性相似度和第二非线性相似度进行结合确定事件对数据的置信度,能够弥补通过线性相似度确定置信度的情况下,仅整体考虑事件对数据造成的缺陷。
附图说明
图1为本发明实施例文本处理方法实现流程示意图;
图2为本发明实施例文本处理方法BNN系统的技术流程示意图;
图3为本发明实施例文本处理装置的组成结构示意图;
图4为本发明实施例文本处理设备的一种硬件实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
相关技术中,事件同指消解的方法主要有两种。一种是使用基于概率或者图的机器学习方法,需要进行大量的特征工程来人工提取出事件句中的特征,再结合机器学习方法来判别同指关系。另一种是运用主流的神经网络方法,设计一种相似度模型来计算两个事件句之间的相似度,从而判别同指关系。
在机器学习方法中,相关学者一在事件对同指消解分类器中引入了一系列事件对属性,比如触发词、时态、极性等等是否一致。相关学者二设计了最大熵分类器,并引入了100多种特征进行实验。相关学者三提出了一种基于马尔科夫链的联合推理模型用于纠正分类器产生的错误结果。相关学者四设计了一种基于图的模型分类器,将事件合并成一个无向图,然后将非同指的事件从图中剔除出去。相关学者五首先使用聚类算法生成事件同指关系的无向图,然后使用最优切割算法对该图进行优化,将错误的边从无向图中删去,从而优化完成事件同指消解。滕佳月使用最大熵分类器模型,结合大量通过工具提取的特征进行研究。
在神经网络方法中,相关学者六先用卷积池化网络抽取事件句和触发词上下文的特征信息,然后引入事件对匹配特征来辅助判别事件对之间是否存在同指关系。相关学者七先用全连接层对两个事件句进行了变维操作,然后计算两个事件句的余弦距离和欧式距离,最后通过激活函数得出一个置信度来判定同指关系。方杰主要使用注意力机制抽取事件句中的重要信息,并结合事件句之间的线性相似度与事件对匹配特征来判别事件对之间是否存在同指关系。
上述相关技术中存在以下缺点:
第一、基于概率或图的机器学习方法需要进行大量的特征工程来提取特征,人工成本较大,准确性不高,且可移植性不强。
第二、相关学者六的方法对事件句使用卷积神经网络来提取出单词的上下文特征信息,只考虑了事件句中单词与单词间的局部信息,并未考虑一对事件句间的关系,且没有深层次的抽取事件句中的特征,导致事件同指消解的性能不高。
第三、相关学者七的方法只是简单的对事件句进行变维操作,也没有深层次提取特征,导致计算的事件句之间的余弦距离与欧式距离不是很准确,影响最终的分类性能。
第四、神经网络方法的输入信息不够丰富且有一定的错误,基本都只结合了事件句和各单词到触发词的相对距离,此外,取触发词前后各三个单词形成一个事件短句。但是,使用固定的规则取出的事件短句会存在一定的错误,进而影响模型的判别性能。
为了解决上述的缺点,本申请提出了一种文本处理方法、装置、电子设备及存储介质。旨在预训练出准确的词向量表示事件句,深层次从维度高、语义信息复杂、句子结构复杂的事件句中提取出有用的特征信息,并通过计算事件短句间的相似度来辅助判别同指关系。
本发明实施例提出一种文本处理方法,该方法所实现的功能可以通过文本处理设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算设备至少包括处理器和存储介质。
图1为本发明实施例文本处理方法实现流程示意图,如图1所示,所述方法包括:
步骤101:获取第一文本中包括的事件对数据;
步骤102:采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
步骤103:确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
步骤104:基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
在步骤101中,所述文本处理方法可以根据实际情况进行确定,在此不做限定。作为一种示例,所述文本处理方法可以是基于BERT预训练的事件同指消解方法。
所述第一文本可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第一文本可以是事件句。所述获取第一文本可以为,基于预设语料库中的语料确定所述事件句。所述预设语料库可以根据实际情况进行确定,在此不做限定。作为一种示例,所述预设语料库可以是国际知识图谱构建大赛(Knowledge base population)语料库和2005自动内容提取(Automatic Content Extraction,ACE)语料库中的一种或多种。
所述获取第一文本中包括的事件对数据可以为,获取所述第一文本;对所述第一文本进行预处理,得到所述第一文本中包括的事件对数据。
在一些实施例中,将所述第一文本中需要进行同指关系判断的两个事件句作为所述第一文本中包括的事件对数据。
在一些实施例中,所述对所述第一文本进行预处理可以为,结合正则表达式和停用词列表对所述第一文本进行数据清洗;对所述第一文本中的特殊符号和停用词进行过滤;将所述第一文本中的单词恢复为原形。
在步骤102中,采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据可以为,对所述事件对数据中的两个事件句中每个事件句分别采用依存句法分析工具进行处理,得到所述两个事件句对应的两个事件短句,将两个所述事件短句作为所述事件对数据对应的事件短句对数据。
在步骤103中,所述第一线性相似度可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第一线性相似度可以是所述事件对数据的第一余弦距离;所述第二线性相似度可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第二线性相似度可以是所述事件短句对数据的第二余弦距离。
所述第一非线性相似度可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第一非线性相似度可以是所述事件对数据的第一双线性距离和第一单层网络距离;所述第二非线性相似度可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第二非线性相似度可以是所述事件短句对数据的第二双线性距离和第二单层网络距离。
在步骤104中,在所述确定所述事件对数据的置信度之后,所述方法还包括:判断所述置信度是否大于预设阈值;在所述置信度大于所述预设阈值的情况下,确定所述事件对数据存在同指关系;其中,所述事件对数据存在同指关系表征所述事件对数据具有同指关系的程度较高;在所述置信度小于或等于所述预设阈值的情况下,确定所述事件对数据不存在同指关系;其中,所述事件对数据不存在同指关系表征所述事件对数据具有同指关系的程度较低。所述预设阈值可以根据实际情况进行确定,在此不做限定。作为一种示例,所述置信度可以是一个介于0和1之间的值,所述预设阈值可以是0.5。
本发明实施例提供一种文本处理方法,获取第一文本中包括的事件对数据;采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。通过将所述事件对数据的第一线性相似度和第一非线性相似度以及所述事件短句对数据的第二线性相似度和第二非线性相似度进行结合确定事件对数据的置信度,能够弥补线性相似度确定置信度仅整体考虑事件对数据的缺陷。
本实施例提出了线性相似度与非线性相似度相结合的方法,利用非线性相似度计算单词与单词之间的相似度来弥补线性相似度只能计算整体事件句间的相似度的缺点。
在本发明的一种可选实施例中,所述采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据,包括:
采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;
确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;
对所述第一距离以及所述第二距离进行排序,得到排序结果;
确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;
基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。
本实施例中,所述依存句法分析工具可以根据实际情况进行确定,在此不做限定。作为一种示例,所述依存句法分析工具可以是斯坦福自然语言处理工具。
所述触发词可以根据实际情况进行确定,在此不做限定。作为一种示例,所述触发词可以是所述事件句中启动一个过程或行动过程的词。
所述论元可以根据实际情况进行确定,在此不做限定。作为一种示例,所述论元可以是所述事件句中施事者、受事者、事件发生的时间地点等。
所述依存词可以根据实际情况进行确定,在此不做限定。作为一种示例,所述依存词可以是所述事件句中主语和宾语等。
所述对所述第一距离以及所述第二距离进行排序的方式可以根据实际情况确定,在此不做限定,作为一种示例,对所述第一距离以及所述第二距离按照由小至大的顺序排列,得到所述排序结果。
本实施例使用依存词分析工具获得触发词的依存词,再利用触发词、依存词、论元一起来确定事件短句在句中的起始与结束位置,从而截取出事件短句。
在本发明的一种可选实施例中,所述基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度,包括:
基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;
基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。
本实施例中,所述基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度可以为,在所述全连接分类器中使用斜坡(Rectified Linear Unit,relu)激活函数对所述置信度向量进行处理,得到处理后的置信度向量;通过逻辑回归模型(sigmoid)激活函数对所述处理后的置信度向量进行处理,得到所述事件对数据的置信度。
在本发明的一种可选实施例中,所述方法还包括:
采用预训练模型BERT对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。
本实施例中,所述采用预训练模型BERT对所述事件对数据进行预测,得到所述事件对数据对应的词向量对可以为,采用所述BERT通过使用字符分别遮住所述事件对数据句中两个事件句中每个事件句的词语或者所述两个事件句中每个事件句所在文中的语句来预测被遮住的词语或语句,得到所述事件对数据中两个事件句对应的两个词向量,将所述两个词向量作为所述事件对数据对应的词向量对。
本实施例不再使用固定的词向量,而是使用BERT预训练模型进行训练,获取准确的词向量表达。
在本发明的一种可选实施例中,所述事件对数据包括多个单词对数据;所述方法还包括:
获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;
基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。
本实施例中,所述单词数据可以根据实际情况进行确定,在此不做限定。作为一种示例,所述单词数据可以是所述事件句中的单词。
所述事件对数据包括多个单词对数据可以为,所述事件对数据中两个事件句中每个事件句分别包括多个单词数据,将所述两个事件句中每个事件句分别包括的多个单词数据作为所述事件对数据包括的多个单词对数据。
所述获取所述事件对数据中多个单词对数据的第一信息对和第二信息对可以为,分别获取所述事件对数据中两个事件句中每个事件句的多个单词数据的第一信息和第二信息,将所述两个事件句中每个事件句的多个单词数据的第一信息和第二信息作为所述事件对数据中多个单词对数据的第一信息对和第二信息对。
所述获取所述事件对数据中多个单词对数据的第一信息对和第二信息对可以为,采用所述斯坦福自然语言处理工具,确定所述事件对数据中多个单词对数据的第一信息对;基于所述多个单词对数据中每个单词对数据距离所述事件对数据的触发词的相对距离,确定所述事件对数据中多个单词对数据的第二信息对。
所述基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对可以为,基于所述词向量对对所述事件对数据进行编码,得到第一维度向量对;基于所述词向量对对所述第一信息对进行编码,得到第二维度向量对;基于所述第二信息对确定第三维度向量对;基于所述第一维度向量对、所述第二维度向量对和所述第三维度向量对确定所述第一事件向量对。其中,所述第一维度向量对可以是第一维度的事件向量对;所述第二维度向量对可以是第二维度的词性向量对;所述第三维度向量对可以是第三维度的位置向量对;所述第一事件向量对可以是第四维度的事件向量对。
本实施例将事件句、事件句中每个单词的位置信息和每个单词的词性信息进行拼接,从而丰富输入数据的特征信息。
在本发明的一种可选实施例中,所述方法还包括:
采用长短时记忆网络Bi-LSTM对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对;
采用卷积神经网络CNN对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对;
对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对;
对所述融合向量对进行第一全局最大池化层处理,得到所述第一事件向量对对应的第二事件向量对。
本实施例中,所述采用长短时记忆网络Bi-LSTM对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对可以为,采用所述Bi-LSTM对所述第一事件向量的两个事件句中每个事件句的单词信息按照由前至后的顺序进行传递,再按照由后至前的顺序进行传递;得到所述第一事件向量对的两个事件句中每个事件句的全局信息;将所述两个事件句中每个事件句的全局信息作为所述第一事件向量对对应的全局信息对。其中,所述Bi-LSTM的神经元数量可以根据实际情况进行确定,在此不做限定。作为一种示例,所述Bi-LSTM的神经元数量可以是150。所述全局信息对可以根据实际情况进行确定,在此不做限定。作为一种示例,所述全局信息对可以是全局向量对。所述全局信息对可以是第五维度的全局向量对。
所述采用卷积神经网络CNN对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对可以为,采用所述CNN对所述第一事件向量的两个事件句中每个事件句的局部信息;将所述两个事件句中每个事件句的局部信息作为所述第一事件向量对对应的局部信息对。其中,所述CNN的卷积核数量和卷积核窗口大小可以根据实际情况进行确定,在此不做限定。作为一种示例,所述CNN的卷积核数量设为300、卷积核窗口大小为2。
在所述卷积核窗口大小为2的情况下,采用所述CNN对所述第一事件向量的两个事件句中每个事件句的相邻两个单词之间的局部信息;将所述两个事件句中每个事件句的相邻两个单词之间的局部信息作为所述第一事件向量对对应的局部信息对。所述局部信息对可以根据实际情况进行确定,在此不做限定。作为一种示例,所述局部信息对可以是局部向量对。所述局部信息对可以是第六维度的局部向量对。
所述对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对可以为,将所述全局信息对和所述局部信息对进行按位相加,得到所述第一事件向量对对应的融合向量对。所述融合向量对可以是第七维度的融合向量对。
所述第二事件向量对可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第二事件向量对可以是第八维度的事件向量对。
在本发明的一种可选实施例中,所述确定所述事件对数据的第一线性相似度和第一非线性相似度,包括:
根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度;
其中,所述第一线性相似度包括第一余弦距离;所述第一非线性相似度包括第一双线性距离和第一单层网络距离中的至少一项。
本实施例中,根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度可以为,根据所述第二事件向量对中两个第二事件向量确定所述事件对数据的第一线性相似度和第一非线性相似度。
在本发明的一种可选实施例中,所述方法还包括:
基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对;
对所述第一事件短句向量对进行第二全局最大池化层处理,得到所述第一事件短句向量对对应的第二事件短句向量对。
本实施例中,所述基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对可以为,基于所述词向量对对所述事件短句对数据进行编码,得到所述事件短句对数据对应的第一事件短句向量对;所述第一事件短句向量对可以是第九维度的事件短句向量对。
所述第二事件短句向量对可以根据实际情况进行确定,在此不做限定。作为一种示例,所述第二事件短句向量对可以是第十维度的事件短句向量对。
在本发明的一种可选实施例中,所述确定所述事件短句对数据的第二线性相似度和第二非线性相似度,包括:
根据所述第二事件短句向量对确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
其中,所述第二线性相似度包括第二余弦距离;所述第二非线性相似度包括第二双线性距离和第二单层网络距离中的至少一项。
本实施例中,根据所述第二事件短句向量对确定所述事件对数据的第二线性相似度和第二非线性相似度可以为,根据所述第二事件短句向量对中两个第二事件短句向量确定所述事件对数据的第二线性相似度和第二非线性相似度。
在一些实施例中,基于所述第二事件向量对、所述第二事件短句向量对、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度。
在一些实施例中,目前公司的智能客服系统还大量的依赖人工客服来回答客户的问题,本实施例提出的方法可以自动获得与客户提出的问题匹配度最高的答案,从而减少人力成本,提高用户的体验感。
本实施例有效的丰富了输入数据的特征信息,将单词、单词的位置信息与单词的词性信息进行一对一的拼接;使用BERT预训练模型进行训练,获取准确的词向量表达;利用Bi-LSTM对事件句进行编码,获得全局向量,同时利用CNN对事件句进行编码获得局部向量,将二者相结合;利用触发词的依存词、触发词和论元抽取出事件短句,而不是固定的抽取触发词前后各三个单词形成事件短句;将线性相似度与非线性相似度结合,并不单单计算线性相似度,同时计算非线性相似度来弥补线性相似度的缺点;相较于相关技术的方法,在性能上有所提升。
为了方便理解,这里示例出一种基于BERT预训练的事件同指消解方法,所述方法应用于一种基于BERT、Bi-LSTM和CNN的事件同指消解系统(BNN系统),图2为本发明实施例文本处理方法BNN系统的技术流程示意图,如图2所示,该方法包括以下步骤:
第一步:对事件句进行预处理。
使用KBP和ACE2005语料库确定语料。其中,KBP语料库有6538个事件句,ACE2005语料库有5349个事件句。在BNN系统的预处理模块中输入语料提供的事件句。其中,语料提供的事件句是直接在网页上爬取的新闻文本,由于爬取的文本数据中存在大量的特殊符号、停用词等无关信息,所以需要在预处理模块中对文本数据进行处理,预处理模块主要使用正则表达式和停用词列表的方法对文本数据进行数据清洗,过滤掉特殊符号和停用词,并且将句中的单词都恢复成原形。将处理后的语句作为输入的事件句(Sentence,Sen)。对输入的Sen使用斯坦福自然语言处理工具获得事件句中各单词的词性信息(Parts-of-speech,Pos),再赋予句中每个单词各自的位置信息(Location,Loc),位置信息取各单词到事件句触发词的相对距离。预处理模块将需要进行同指关系判断的两个事件句作为事件对数据。
第二步:对事件句进行BERT预测。
由于输入BNN系统的信息的准确性在很大程度上决定了事件同指的准确率,以往的实验大都使用固定的词向量来表示输入信息,对于事件句的表示不够准确。而本实施例使用BERT预训练模型获得词语的向量表示。
BERT预训练模型通过用字符遮住事件句中的词语或者事件句所在文中的语句来预测被遮住的词语或语句,从而获得各种词语的向量表示BM。因此,句中各词语间有很强的关联性,文中的语句之间也有很强的上下文连通性、逻辑性。对实验结果产生很大的影响。公式如(1)所示:
BMi=BERT(Seni)(i=1,2) (1)
第三步:采用词向量对事件句进行编码。
使用BERT预训练模型训练出来的词向量BM对事件句Sen、词性信息Pos进行编码获得维度为a×b的事件句向量SEN和维度为a×b的词性向量POS,然后将事件句向量、词性向量和维度为a×1的位置信息进行横向拼接,形成维度为a×(2b+1)的事件向量EB。公式如(2)所示:
EBi=Concat(SENi,POSi,Loci)(i=1,2) (2)
第四步:抽取事件句的全局与局部信息。
对比两个事件句是否是同指关系的时候,可以先从整体结构观察两个事件句间是否有相似之处,如果相似度不高,依然有可能是同指关系,为此就需要逐词对比,寻找二者之间的同指关系。
为此,本实施例先使用Bi-LSTM来抽取事件向量EB的全局信息,将Bi-LSTM神经元设置为150。Bi-LSTM会将事件句中前面的单词信息依次往后传递,然后再反过来由后往前传递信息,从全局的角度来观察一个事件句。还使用CNN抽取事件向量EB的局部信息,把CNN卷积核数量设为300、卷积核窗口大小为2、保持维度不变。由于卷积核的窗口大小是2,因此会抽取事件句中相邻两个单词之间的局部信息。两种网络分别获得维度为a×300的全局向量GE和维度为a×300的局部向量LE,公式如(3)和(4)所示:
LEi=Conv(EBi)(i=1,2) (4)
由于全局向量GE和局部向量LE的维度相同,本实施例将全局向量GE和局部向量LE按位相加得到维度为a×300的向量GL,就相当于将事件句中各个词语的全局信息和局部信息融合在了一起。公式如(5)所示:
最后,将向量GL经过全局最大池化层,获得维度为a×1的向量EX,公式如(6)所示:
EXi=GlobalMax(GLi)(i=1,2) (6)
第五步:在事件句中抽取事件短句。
在相关技术中,研究人员会固定的抽取触发词前后各三个单词作为事件短句,来简要的描述事件句。这种方法可能会抽取出一个结构信息不完整的语句,从而会错误的表示原句的意思。为此,本实施例优化了该抽取方法,事件短句抽取步骤如下:
步骤(5.1)使用斯坦福自然语言处理工具获得事件句中的论元,论元主要包括:施事者、受事者、事件发生的时间地点等。
步骤(5.2)使用依存词分析工具生成句中触发词的依存词。
步骤(5.3)计算各论元和各依存词距离触发词的距离,在触发词前后确定距其最远的2个词,将这2个词作为事件短句的起始与结束位置。
步骤(5.4)截取从起始位置到结束位置的语句作为事件短句。
举例:某个语句:Zhang Junxiong,the newly appointed Executive President,was also invited to attend the inauguration ceremony and delivered a speech。在该句中,触发词是“appointed”,触发词的依存词是“Zhang Junxiong”、“President”、“invited”,三个依存词与触发词的距离分别是-3、2、5。事件句中的论元为“ZhangJunxiong”、“invited”,两个论元与触发词的距离分别是-3、5。
按照固定抽取短句的方法抽出来的事件短句是“Junxiong the newly appointedExecutive President was”,可以看出该短句是残缺不全的。而按照本实施例提出的优化方法,取触发词前距离最远的依存词或论元“Zhang Junxiong”为起始位置,触发词后距离最远的依存词或论元“invited”为结束位置,则可抽取出事件短句“Zhang Junxiong thenewly appointed Executive President was also invited”。
按照上述方法获得事件短句,用词向量BM对事件短句编码获得维度为a×b的事件短句向量ES,再将事件短句向量ES通过全局最大池化层,获得维度为a×1的事件短句向量SX,公式如(7)所示:
SXi=GlobalMax(ESi)(i=1,2) (7)
第六步:计算两个事件句的相似度。
判断事件句间是否存在同指关系的关键在于计算二者的相似度,相似度计算的准确以及全面对模型的性能结果有很大的影响。在相关的技术中,研究人员均只使用了余弦距离的计算方法来获得事件句间的线性相似度,线性相似度是从整体的角度来考虑两个事件句间的关系,如果二者的结构差距过大,会误判为非同指关系。而非线性相似度可以计算一对事件对之间单词与单词之间的关系,从而弥补线性相似度的缺陷。
本实施例提出了三种相似度计算方法,分别是:余弦距离C、双线性距离S和单层网络距离L,公式如(8)、(9)、(10)、(11)、(12)、(13)所示:
式(8)中,C1表示事件句向量对应的余弦距离。式(9)中,C2表示事件短句向量对应的余弦距离。式(10)中,表示用于计算事件句向量对应的双线性距离的权重。式(11)中,/>表示用于计算事件短句向量对应的双线性距离的权重。式(12)中,/>表示用于计算事件句向量对应的单层网络距离的权重;/>表示用于计算事件句向量对应的单层网络距离的偏移向量。式(13)中,/>表示用于计算事件短句向量对应的单层网络距离的权重;表示用于计算事件短句向量对应的单层网络距离的偏移向量。
第七步:输出置信度。
将事件句向量EX、事件短句向量SX、相似度向量C、相似度双线性向量S和相似度单层网络向量L相结合,生成向量P,公式如(14)所示:
P=Concat(EX1,EX2,SX1,SX2,C1,C2,S1,S2,L1,L2) (14)
将向量P放入一个全连接分类器中,分类器使用relu激活函数,公式如(15)所示:
Vh=α(Wh*P+bh) (15)
式(15)中,Wh表示向量P对应的激活函数的权重;bh表示向量P对应的激活函数的偏移向量。
通过sigmoid层得出事件同指的置信度,公式如(16)所示:
score=sigmoid(W0*Vh+b0) (16)
式(16)中,W0表示置信度的权重;b0表示置信度的偏移向量。
置信度score是一个介于0和1之间的值,如果score大于0.5,则判定为同指关系,反之,则判定为非同指关系。为了防止过拟合,本实施例使用了Dropout,Dropout是深度学习中被广泛的应用到解决模型过拟合问题的策略,值设为0.2。
BNN系统通过BERT预训练和全局与局部信息的抽取,将文本内容的语义信息准确且全面的挖掘出来并转换成向量表达。通过事件短句抽取和相似度距离的计算,辅助模型判别同指关系。该系统在实际测试中取得了较好的效果,相较于相关技术中的方法和现存的技术提高了性能,表1为KBP性能结果数据,表2为ACE性能结果数据,如表1和表2所述,性能结果如下:
系统 MUC B3 BLANC CEAFe AVG
相关学者六 60.84 84.16 75.07 76.56 74.16
KBP-top 68.08 82.29 76.91 74.12 75.35
相关学者四 67.81 85.59 77.37 79.65 77.61
BNN 70.23 85.22 78.81 78.57 78.21
表1为KBP性能结果数据
在表1中,MUC、B3、BLANC、CEAFe、Links是性能指标评测方法,KBP、ACE是测试集。
从表1可以看出,BNN系统相较于相关学者六和KBP-TOP的神经网络方法有很大的提升,相较于相关学者四的机器学习方法在均值上提升0.6%。虽然仅提升0.6%,但是神经网络方法相较于机器学习方法具有人工成本低、效率高、可移植性强的优势。
本发明实施例提供一种文本处理装置,图3为本发明实施例文本处理装置的组成结构示意图,如图3所示,所述装置300包括:
第一获取模块301,用于获取第一文本中包括的事件对数据;
第一处理模块302,用于采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
第一确定模块303,用于确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
第二确定模块304,用于基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
在其他的实施例中,所述第一处理模块302,还用于采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;对所述第一距离以及所述第二距离进行排序,得到排序结果;确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。
在其他的实施例中,所述第二确定模块304,还用于基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。
在其他的实施例中,所述装置300还包括:预测模块,用于采用预训练模型BERT对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。
在其他的实施例中,所述事件对数据包括多个单词对数据;所述装置300还包括:第二获取模块和第三确定模块;其中,
所述第二获取模块,用于获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;
所述第三确定模块,用于基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。
在其他的实施例中,所述装置300还包括:第一抽取模块、第二抽取模块、融合模块和第二处理模块;其中,
所述第一抽取模块,用于采用长短时记忆网络Bi-LSTM对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对;
所述第二抽取模块,用于采用卷积神经网络CNN对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对;
所述融合模块,用于对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对;
所述第二处理模块,用于对所述融合向量对进行第一全局最大池化层处理,得到所述第一事件向量对对应的第二事件向量对。
在其他的实施例中,所述第一确定模块303,还用于根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度;其中,所述第一线性相似度包括第一余弦距离;所述第一非线性相似度包括第一双线性距离和第一单层网络距离中的至少一项。
在其他的实施例中,所述装置300还包括:第四确定模块和第三处理模块;其中,
所述第四确定模块,用于基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对;
所述第三处理模块,用于对所述第一事件短句向量对进行第二全局最大池化层处理,得到所述第一事件短句向量对对应的第二事件短句向量对。
在其他的实施例中,所述第一确定模块303,还用于根据所述第二事件短句向量对确定所述事件短句对数据的第二线性相似度和第二非线性相似度;其中,所述第二线性相似度包括第二余弦距离;所述第二非线性相似度包括第二双线性距离和第二单层网络距离中的至少一项。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述的文本处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台文本处理设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
对应地,本发明实施例还提供一种文本处理设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法中的任一步骤。
对应地,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法中的任一步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明存储介质和设备实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
需要说明的是,图4为本发明实施例文本处理设备的一种硬件实体结构示意图,如图4所示,该文本处理设备400的硬件实体包括:处理器401和存储器403,可选地,所述文本处理设备400还可以包括通信接口402。
可以理解,存储器403可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器403旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器403,处理器401读取存储器403中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,文本处理设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个观测量,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其他形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例的目的。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明实施例上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台文本处理设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明是实例中记载的文本处理方法、装置和计算机存储介质只以本发明所述实施例为例,但不仅限于此,只要涉及到该文本处理方法、装置和计算机存储介质均在本发明的保护范围。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种文本处理方法,其特征在于,包括:
获取第一文本中包括的事件对数据;
采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
2.根据权利要求1所述的方法,其特征在于,所述采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据,包括:
采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;
确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;
对所述第一距离以及所述第二距离进行排序,得到排序结果;
确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;
基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度,包括:
基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;
基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用预训练模型BERT对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。
5.根据权利要求4所述的方法,其特征在于,所述事件对数据包括多个单词对数据;所述方法还包括:
获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;
基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
采用长短时记忆网络Bi-LSTM对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对;
采用卷积神经网络CNN对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对;
对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对;
对所述融合向量对进行第一全局最大池化层处理,得到所述第一事件向量对对应的第二事件向量对。
7.根据权利要求6所述的方法,其特征在于,所述确定所述事件对数据的第一线性相似度和第一非线性相似度,包括:
根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度;
其中,所述第一线性相似度包括第一余弦距离;所述第一非线性相似度包括第一双线性距离和第一单层网络距离中的至少一项。
8.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对;
对所述第一事件短句向量对进行第二全局最大池化层处理,得到所述第一事件短句向量对对应的第二事件短句向量对。
9.根据权利要求8所述的方法,其特征在于,所述确定所述事件短句对数据的第二线性相似度和第二非线性相似度,包括:
根据所述第二事件短句向量对确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
其中,所述第二线性相似度包括第二余弦距离;所述第二非线性相似度包括第二双线性距离和第二单层网络距离中的至少一项。
10.一种文本处理装置,其特征在于,包括:
第一获取模块,用于获取第一文本中包括的事件对数据;
第一处理模块,用于采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
第一确定模块,用于确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
第二确定模块,用于基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
11.一种文本处理设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现权利要求1至9任一项所述的方法。
12.一种存储介质,其特征在于,所述存储介质存储有可执行指令,当所述可执行指令被处理器执行时,实现权利要求1至9任一项所述的方法。
CN202211320876.5A 2022-10-26 2022-10-26 文本处理方法、装置、电子设备及存储介质 Pending CN116821276A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211320876.5A CN116821276A (zh) 2022-10-26 2022-10-26 文本处理方法、装置、电子设备及存储介质
PCT/CN2023/120521 WO2024087963A1 (zh) 2022-10-26 2023-09-21 文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211320876.5A CN116821276A (zh) 2022-10-26 2022-10-26 文本处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116821276A true CN116821276A (zh) 2023-09-29

Family

ID=88141677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211320876.5A Pending CN116821276A (zh) 2022-10-26 2022-10-26 文本处理方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN116821276A (zh)
WO (1) WO2024087963A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302794B (zh) * 2015-10-30 2018-08-07 苏州大学 一种中文同指事件识别方法及系统
US11893345B2 (en) * 2021-04-06 2024-02-06 Adobe, Inc. Inducing rich interaction structures between words for document-level event argument extraction
CN114996414B (zh) * 2022-08-05 2022-09-30 中科雨辰科技有限公司 一种确定相似事件的数据处理系统

Also Published As

Publication number Publication date
WO2024087963A1 (zh) 2024-05-02

Similar Documents

Publication Publication Date Title
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109165380B (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
US8204751B1 (en) Relevance recognition for a human machine dialog system contextual question answering based on a normalization of the length of the user input
US20160239739A1 (en) Semantic frame identification with distributed word representations
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN112000802A (zh) 基于相似度集成的软件缺陷定位方法
Yousif Natural language processing based soft computing techniques
El Desouki et al. Exploring the recent trends of paraphrase detection
Monisha et al. Classification of bengali questions towards a factoid question answering system
Kim et al. A convolutional neural network in legal question answering
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
Jawad et al. Combination of convolution neural networks and deep neural networks for fake news detection
CN112711666B (zh) 期货标签抽取方法及装置
Hoque et al. Detecting cyberbullying text using the approaches with machine learning models for the low-resource bengali language
CN117278675A (zh) 一种基于意图分类的外呼方法、装置、设备及介质
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
Mahafdah et al. Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination.
Kowsher et al. BnVec: Towards the development of word embedding for Bangla language processing
CN116821276A (zh) 文本处理方法、装置、电子设备及存储介质
Prajapati et al. Automatic Question Tagging using Machine Learning and Deep learning Algorithms
Zuanovic et al. Experiments with neural word embeddings for croatian
CN113536802A (zh) 小语种文本数据的情感判别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination