CN112287111B - 一种文本处理方法和相关装置 - Google Patents

一种文本处理方法和相关装置 Download PDF

Info

Publication number
CN112287111B
CN112287111B CN202011506473.0A CN202011506473A CN112287111B CN 112287111 B CN112287111 B CN 112287111B CN 202011506473 A CN202011506473 A CN 202011506473A CN 112287111 B CN112287111 B CN 112287111B
Authority
CN
China
Prior art keywords
event
text
sequence
coding sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011506473.0A
Other languages
English (en)
Other versions
CN112287111A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011506473.0A priority Critical patent/CN112287111B/zh
Publication of CN112287111A publication Critical patent/CN112287111A/zh
Application granted granted Critical
Publication of CN112287111B publication Critical patent/CN112287111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请公开一种文本处理方法和相关装置,根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对。根据事件关系对之间第一事件的相似程度和事件关系对之间第二事件的相似程度,对事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,为同一个事件关系对中第一事件标记第一类别标签,第二事件标记第二类别标签。针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则。进而根据待抽取文本与目标类序列规则的匹配程度确定待抽取文本中的目标事件关系。本申请根据目标类序列规则从文本确定目标事件关系,提高了模式的覆盖率、增加召回率。

Description

一种文本处理方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种文本处理方法和相关装置。
背景技术
事件是指在特定环境下发生的由若干角色参与并表现出若干动作特征的事情。事件关系反映的是事件之间的语义关系,在文本表示中既常见又非常重要。而事件关系抽取是指自动识别事件之间具有的某种语义关系,事件关系抽取可以应用在许多领域中,例如金融领域可以通过事件关系抽取来评估金融风险事件对下游公司营业状态、股票涨跌等影响情况,为公司未来发展提供一个有价值的参考分析,可以有效的辅助决策,降低金融运营风险。
目前,针对事件关系为事件因果关系,进行事件因果关系抽取时,主要通过人工指定因果关系词,进而根据文本是否包括该因果关系词及因果关系词所在的上下文抽取对应的事件因果关系。
然而这种方法只能够抽取具有人工指定因果关系词的事件因果关系,而人工指定因果关系词是有限的,极大降低了事件因果关系抽取的覆盖率。
发明内容
为了解决上述技术问题,本申请提供了一种文本处理方法和相关装置,解决了相关技术中需要依赖人工制定模式的问题。且目标类序列规则体现了具有目标事件关系的文本的编码序列特征,一旦文本符合该编码序列特征,便可以根据目标类序列规则从中确定目标事件关系,提高了模式的覆盖率、增加召回率。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供一种文本处理方法,所述方法包括:
根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,所述事件关系对中包括第一事件和第二事件,所述第一事件与所述第二事件通过所述指定关联词连接以具有目标事件关系;
根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签;
针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,所述目标类序列规则用于指示所述事件文本的编码序列特征;
根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
第二方面,本申请实施例提供一种文本处理装置,所述装置包括获取单元、分组单元、生成单元和确定单元:
所述获取单元,用于根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,所述事件关系对中包括第一事件和第二事件,所述第一事件与所述第二事件通过所述指定关联词连接以具有目标事件关系;
所述分组单元,用于根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签;
所述生成单元,用于针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,所述目标类序列规则用于指示所述事件文本的编码序列特征;
所述确定单元,用于根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
第三方面,本申请实施例提供一种用于文本处理的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法 。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。
由上述技术方案可以看出,为了实现目标事件关系抽取,可以根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,该事件关系对中包括第一事件和第二事件,第一事件与第二事件通过指定关联词连接以具有目标事件关系。然后根据事件关系对之间第一事件的相似程度和该事件关系对之间第二事件的相似程度,对事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,为同一个事件关系对中第一事件标记第一类别标签,第二事件标记第二类别标签。针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,目标类序列规则用于指示事件文本的编码序列特征,即体现了具有目标事件关系的文本的编码序列特征。当需要对待抽取文本进行目标事件关系抽取时,可以确定待抽取文本与目标类序列规则的匹配程度,进而根据匹配程度确定待抽取文本中的目标事件关系。本申请可以在基于指定关联词召回事件文本后,自动根据事件文本灵活地生成目标类序列规则,解决了相关技术中需要依赖人工制定模式的问题。且目标类序列规则体现了具有目标事件关系的文本的编码序列特征,一旦文本符合该编码序列特征,便可以根据目标类序列规则从中确定目标事件关系,提高了模式的覆盖率、增加召回率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本处理方法的应用场景示意图;
图2为本申请实施例提供的一种文本处理方法的流程图;
图3为本申请实施例提供的对事件文本进行依存句法分析得到的依存句法结构示意图;
图4为本申请实施例提供的文本相似度归类示意图;
图5为本申请实施例提供的一种文本处理方法的流程图;
图6为本申请实施例提供的一种文本处理装置的结构图;
图7为本申请实施例提供的一种终端设备的结构图;
图8为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
一些相关技术中,主要通过人工指定因果关系词,例如:导致、造成、源于等,进而根据文本是否包括该因果关系词及因果关系词所在的上下文抽取对应的事件因果关系。
例如,人工指定因果关系词为导致、造成、源于等,只有当文本中包括导致、造成或源于时,才认为该文本包括事件因果关系,进而根据人工指定因果关系词所在的上下文抽取事件因果关系。
然而这种方法只能够抽取具有人工指定因果关系词的事件因果关系,而人工指定因果关系词是有限的,极大降低了事件因果关系抽取的覆盖率。
为此,本申请实施例提供一种文本处理方法,该方法能够基于给定目标事件关系的事件文本的上下文灵活的生成目标类序列规则,解决了相关技术中需要依赖人工制定模式的问题。且目标类序列规则体现了具有目标事件关系的文本的编码序列特征,一旦文本符合该编码序列特征,便可以根据目标类序列规则从中确定目标事件关系,提高了模式的覆盖率、增加召回率。
需要说明的是,本申请实施例提供的文本处理方法可以广泛应用于关系推理、图谱构建、营销预测等许多领域。例如在金融事件挖掘和金融事理图谱的构建上,通过挖掘金融事件的因果关系(即事件关系),能够更好地分析和预测个股的涨跌,推理金融事件的发生脉络,及时对个股行情做出预判指导量化;对新闻报道、历史事件的因果关系抽取能够挖掘事物的演化关系,强大因果根因的知识图谱,更好地指导实际需要进行决策。因此,本申请实施例提供的方法在事件预测、情景生成、问答以及文本蕴涵等任务上都有重要的意义和应用价值。
本申请实施例所提供的方法涉及到云技术领域,例如涉及大数据(Big data)领域,本申请实施例提供的方法可以基于大数据挖掘具有目标事件关系的多个事件文本。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
本申请实施例所提供的方法还可以涉及区块链,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
由于通过进行事件关系抽取可以辅助决策,为了可以更加准确的辅助决策,需要保证生成目标类序列规则所依据的事件文本的可靠性,且在一些领域中事件文本具有隐私性,因此,基于区块链的特性,本申请实施例提供的方法可以基于区块链实现。
该方法可以应用到数据处理设备,该数据处理设备可以是终端设备,终端设备例如可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
该数据处理设备还可以是服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
当然,该数据处理设备可以是终端设备和服务器,即二者配合执行,终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器用于生成目标类序列规则,终端设备用于根据目标类序列规则确定待抽取文本中的目标事件关系,从而提供给用户,以辅助用户决策。
为了便于理解本申请的技术方案,下面结合实际应用场景,以终端设备为例对本申请实施例提供的文本处理方法进行介绍。
参见图1,图1为本申请实施例提供的分类方法的应用场景示意图,该应用场景中可以包括终端设备101和服务器102。终端设备101可以根据目标事件关系对应的指定关联词,获取多个事件文本。其中,事件关系是指事件之间存在的关联关系,例如可以包括事件因果关系、事件条件关系、事件顺承关系、事件转折关系等等,本实施例对事件关系不做限定。目标事件关系为在不同领域需要抽取的某一种事件关系,例如在金融领域需要预测个股的涨跌,推理金融事件的发生脉络,及时对个股行情做出预判指导量化时,目标事件关系可以是事件因果关系。
指定关联词是人为制定的用于体现目标事件关系的关联词,指定关联词通常是人为穷举的关联词,通常为显性目标事件关系。以目标事件关系是事件因果关系为例,指定关联词可以为导致、造成、源于等明显体现因果关系的关联词。
服务器102上可以存储各种事件文本,终端设备101可以从服务器102获取多个事件文本,每个事件文本包括事件关系对,该事件关系对中包括第一事件和第二事件,第一事件与第二事件通过指定关联词连接以具有目标事件关系。
终端设备101获取的事件文本虽然都具有目标事件关系,但是不同的事件文本之间形成目标事件关系的第一事件和第二事件可能相似,也可能不相似,进而导致其对应的类序列规则有所不同。因此,终端设备101可以根据事件关系对之间第一事件的相似程度和事件关系对之间第二事件的相似程度,对事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签。
终端设备101分别针对每组事件关系对确定该组事件关系对所符合的类序列规则。具体的,针对每组事件关系对,终端设备101根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则。目标类序列规则用于指示事件文本的编码序列特征,当需要针对待抽取文本抽取目标事件关系时,可以根据目标类序列规则与待抽取文本的匹配程度,确定待抽取文本中的目标事件关系。
终端设备101得到目标事件关系后,还可以将目标事件关系提供给用户,以便指导用户进行分析、处理、决策等。
接下来,将以数据处理设备是终端设备为例,结合附图对本申请实施例提供的文本处理方法进行详细介绍。
参见图2,图2示出了一种文本处理方法的流程图,所述方法包括:
S201、根据目标事件关系对应的指定关联词,获取多个事件文本。
终端设备根据指定关联词召回一批事件文本,该事件文本一般具有显性目标事件关系。其中,每个事件文本包括事件关系对,该事件关系对中包括第一事件和第二事件,第一事件与第二事件通过指定关联词连接以具有目标事件关系。
在一种可能的实现方式中,获取事件文本的方法例如可以是制定指定关联词,对匹配到指定关联词的事件文本进行依存句法分析,定位指定关联词为触发词,通过依存句法规则和一定模式抽取对应目标事件关系中的第一事件和第二事件。
以目标事件关系是事件因果关系为例,指定关联词包括导致、引起、使得、造成、引发、招致、致使等因果关联词,则第一事件是因事件,第二事件是果事件。若匹配到指定关联词的事件文本为“自裁线下门店规模导致苏宁当年的营收增速下降了6%”。对该事件文本进行依存句法分析得到的依存句法结构参见图3所示,依存句法结构没有非终结点,该事件文本中包括的词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。依存关系用一个有向弧表示,叫做依存弧(参见图3中带有箭头的弧线)。依存弧的方向为由从属词指向支配词,当然反过来也是可以的,按个人习惯统一表示即可。图3中,HED表示核心(head)关系,ATT表示定中(attribute)关系,RAD表示后附加(right adjunct)关系,ADV表示状中(adverbial)结构,SBV表示主谓(subject-verb)关系,VOB表示动宾(verb-object)关系。
也就是说,该事件文本属于A导致B句式,此句式中因果事件触发词(导致)为谓语,因事件为该触发词的主语,果事件为该触发词的宾语,制定模式为:若存在A以SBV关系依存于触发词,且存在B以VOB关系依存于触发词,则将A抽取为因事件的核心词,B抽取为果事件的核心词。
指定关联词“导致”对应SBV关系的因事件的核心词为“裁”(核心短语为:自裁规模,“自”跟“裁”为SBV关系,“裁”跟“规模”为VOB关系),“导致”对应VOB关系的果事件的核心词为“下降”(核心短语为:增速下降6%,“增速”跟“下降”为SBV关系,“下降”跟“6%”为VOB关系)。
通过上述依存句法分析,最终确定的因事件(第一事件)为“自裁规模”,果事件(第二事件)为“增速下降6%”。
S202、根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组。
不同的事件文本之间形成目标事件关系的第一事件和第二事件可能相似,也可能不相似,进而导致其对应的类序列规则可能有所不同。因此,终端设备可以对事件关系对进行分组,以针对每组事件关系对确定该组事件关系对所符合的类序列规则。属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签。
在一种可能的实现方式中,对事件关系对进行分组的方式可以是将每个事件关系对中的第一事件和第二事件进行文本向量化,得到第一事件的向量和第二事件的向量,利用不同事件关系对中第一事件的向量进行相似度计算,以及利用不同事件关系对中第二事件的向量进行相似度计算,若任意两个事件关系对的第一事件和第二事件均相似,则将这两个事件关系对划分至一组。
例如A事件关系对中第一事件“自裁规模”的向量与B事件关系对中第一事件“缩减规模”的向量进行相似度计算,A事件关系对中第二事件“增速下降6%”的向量与B事件关系对中第二事件“增速放缓”的向量进行相似度计算,若根据计算结果确定“自裁规模”的向量与“缩减规模”的向量相似,且“增速下降6%”的向量与“增速放缓”的向量相似,则将A事件关系对与B事件关系对划分至一组。采用类似的方法,其他事件关系对中的第一事件“减少规模”、“降低规模”等也与A事件关系对中第一事件相似,对应的第二事件“增速降低”、“增速放慢”等也与A事件关系对中第二事件相似,则将这些事件关系对与A事件关系对划分至一组。
类别标签用于表示一个事件关系对中包括的两个事件在目标事件关系中所属的类别,通常情况下,该两个事件所属的类别不同,第一事件在目标事件关系中所属类别可以用第一类别标签表示,第二事件在目标事件关系中所属类别可以用第二类别标签表示。例如若目标事件关系是事件因果关系,第一事件为“自裁规模”,第二事件为“增速下降6%”,则“自裁规模”具有第一类别标签,表示“自裁规模”在事件因果关系中所属的类别为因事件,“增速下降6%”具有第二类别标签,表示“增速下降6%”在事件因果关系中所属的类别果事件。
即,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签,在一些情况下,第一类别标签可以用“#”表示,第二类别标签可以用“*”表示。
需要说明的是,word2vec(word to vector)是一个将单词转换成向量形式的工具,可以是基于训练得到的神经网络模型实现的。Embedding就是用一个低维的向量表示一个物体,该物体可以是一个单词,或是一个商品,或是一个电影等等。本申请实施例可以利用word2vec实现第一事件和第二事件的Embedding表示。
基于此,在本实施例中,文本向量化的一种可能实现方式为:文本分词,利用word2vec构建词向量,若第一事件或第二事件为短语,则构建短语词向量,若第一事件或第二事件为短句,将短句中的词语进行词向量化取均值得到短句向量化。从而得到事件文本中每个第一事件和第二事件的向量,即Embedding表示。
以前述得到的第一事件是“自裁规模”,第二事件是“增速下降6%”为例,二者均为短句文本,首先利用词向量模型如Word2vec获取各个词的词向量,对第一事件和第二事件的短句文本包含的词向量取均值得到该短句文本的句向量,便获取得到第一事件的向量和第二事件的向量。
S203、针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则。
其中,目标类序列规则是一组事件关系对所对应的事件文本所符合的类序列规则,目标类序列规则用于指示事件文本的编码序列特征。
类序列规则(Class Sequential Rules,CSR)是由类别标签和序列组成的规则,体现了序列和类别标签的映射关系,表示为
Figure DEST_PATH_IMAGE002A
,具体描述该映射关系如下:
X为一个序列,表述为
Figure DEST_PATH_IMAGE004A
,其中
Figure DEST_PATH_IMAGE006A
指的是序列数据库,为一系列元组
Figure DEST_PATH_IMAGE008A
组成的集合,如表1所示,
Figure DEST_PATH_IMAGE010A
为一个序列的标号,而
Figure DEST_PATH_IMAGE012A
指的是序列,
Figure DEST_PATH_IMAGE014A
表示类别信息,表示的是这个序列对应的可能的类别:
表1 序列数据库示例
Figure 264126DEST_PATH_IMAGE015
Y为另一个序列,表述为
Figure DEST_PATH_IMAGE017A
,其中
Figure DEST_PATH_IMAGE019A
Figure DEST_PATH_IMAGE006AA
定义同上,
Figure DEST_PATH_IMAGE021A
表示类别信息,为确定的类别标签,而
Figure DEST_PATH_IMAGE023A
为类别标签的集合。由此,CSR要求序列必须带有指定的类别信息。
指定类别信息以后,CSR将满足要求的序列挖掘出来作为规则,以表1为例,该序列数据库中含有5条带有类别信息的序列,按照以上定义,针对表1所示的序列数据库,可以挖掘的类序列规则为
Figure DEST_PATH_IMAGE025A
可以理解的是,依据上述介绍的挖掘类序列规则的定义,CSR先确定了类别,再根据类别来挖掘规则。在类序列规则中,左侧是序列,右侧是对应的类别标签,通过这种对应的映射关系将序列和类别标签标识的类别信息绑定在一起。CSR挖掘的目标是找到与类别信息具有高度相关性的序列,挖掘序列和类别标签之间对应的规则。由此可见,类序列规则的特点是有监督和事先给定类别信息。
在本申请实施例中,针对每组事件关系对,可以根据支持度阈值和置信度阈值挖掘目标类序列规则。具体的,生成事件文本对应的编码序列,得到该组事件关系对的编码序列集,编码序列包括第一类别标签和第二类别标签。设定支持度阈值,根据编码序列集确定满足支持度阈值的频繁序列模式,若频繁序列模式的置信度满足置信度阈值,则确定频繁序列模式符合目标类序列规则。
以上述表1为例,标号为1和5的序列包含了该类序列规则
Figure DEST_PATH_IMAGE026A
,类别都是
Figure DEST_PATH_IMAGE028A
,而标号为1,2和5的序列都覆盖了该类序列规则,但标号为2的序列没有确定的类别标签。故在这5条序列的数据元组里,该类序列规则的支持度为2/5,置信度为2/3。这两个指标作为挖掘目标类序列规则的衡量标准,将满足最小支持度阈值和置信度阈值的序列提取出来作为该序列数据库的目标类序列规则。
需要说明的是,用于CSR的挖掘的算法有很多,例如广义序贯模式(GeneralizedSequential Pattern,GSP)算法、Prefixspan算法(是一种频繁序列模式挖掘算法)等。通过prefixspan算法来挖掘满足最小支持度的频繁序列模式,同时考虑到,在各个序列中序列长度的差别较大,使用单一固定的最小支持度进行类序列规则挖掘并不合适,否则如果要挖掘低频序列,需要将支持度阈值降低,这样会引入大量由高频词产生的规则,引入噪音。为此,本申请实施例使用多最小支持度策略,规则最小支持度的计算方法通过最小支持率
Figure DEST_PATH_IMAGE030A
乘以序列长度n,得到最小支持度min_sup,如下述公式所示:
Figure DEST_PATH_IMAGE032A
其中,
Figure DEST_PATH_IMAGE030AA
为最小支持率,是预先设置的,例如可以取0.01到0.1之间的数值,n为序列长度,序列长度为编码序列的数量。支持度阈值越高,挖掘的目标类序列规则的精度越高。
通过支持度和置信度对类序列规则的准确性进行校验,确保得到的目标类序列规则的可靠性。
本实施例提供了多种确定频繁序列模式的方式,第一种方式可以是将事件关系对所对应的事件文本进行分词,并得到分词后文本向量化,从而基于文本的向量挖掘含有第一类别标签和第二类别标签上下文的频繁序列模式。
例如,事件文本分别为“苏宁零售市场缩小规模,伴随着公司盈利的增长受阻”和“电商渠道规模减小,随之影响业绩增速放缓”,第一事件“#”为:缩小规模、规模减小,第二事件“*”为:增长受阻、增速放缓,事件文本中除第一事件和第二事件之外的其余文本进行分词,并对分词后的文本进行文本向量化得到分词向量,这样,基于分词向量、“#”、“*”分别得到上述两个事件文本的编码序列,从而基于包括分词向量、第一类别标签和第二类别标签的编码序列挖掘频繁序列模式。
第二种方式是将事件关系对所对应的事件文本进行分词,并得到分词后文本向量化,通过计算向量相似度(如余弦相似度),将相似向量归为一类,并标记为同一文本编码标签,挖掘含有文本编码标签、第一类别标签和第二类别标签上下文的频繁序列模式。
上述第二种方式将相似向量归为一类,从而基于文本编码标签挖掘频繁序列模式,提高了频繁序列模式的泛化能力。本申请实施例主要对第二种方式进行详细介绍。
为了实现基于第二种方式挖掘频繁序列模式,生成事件文本对应的编码序列,得到该组事件关系对的编码序列集的方式可以是确定事件文本中分词向量对应的文本编码标签,根据所述文本编码标签、第一类别标签和第二类别标签得到编码序列。其中,文本编码标签是根据上述第二种方式中的计算向量相似度得到的。
例如,事件文本分别为“苏宁零售市场缩小规模,伴随着公司盈利的增长受阻”和“电商渠道规模减小,随之影响业绩增速放缓”,第一事件“#”为:缩小规模、规模减小,第二事件“*”为:增长受阻、增速放缓,基于第一事件和第二事件在上述两个事件文本中的上下文,计算向量相似度,得到“零售市场”和“电商渠道”相似,可以归为一类,并标记为同一文本编码标签,例如标注为文本编码标签a;“伴随着”和“随之”相似,可以归为一类,并标记为同一文本编码标签,例如标注为文本编码标签b;“公司盈利”和“业绩”相似,可以归为一类,并标记为同一文本编码标签,例如标注为文本编码标签c。则针对上述两个事件文本得到的编码序列分别是“苏宁a#bc的*”和“a#b影响c*”。
需要说明的是,基于该方式可以实现文本相似度归类,参见图4所示,图4示出了归类结果示意图,图4中401示出了与“零售市场”相似的文本,可以统一标注为文本编码标签a,402示出了与“伴随”相似的文本,可以统一标注为文本编码标签b,403示出了与“业绩”相似的文本,可以统一标注为文本编码标签c。
基于上述得到的编码序列“苏宁a#bc的*”和“a#b影响c*”得到的频繁序列模式为“a#bc*”,后续将对频繁序列模式挖掘的具体方式进行详细介绍,此处不再赘述。
S204、根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
若通过挖掘频繁序列模式确定目标类序列规则,则S204的实现方式可以是根据频繁序列模式与待抽取文本的匹配程度,从待抽取文本中抽取目标事件关系。
若频繁序列模式是基于上述第二种方式挖掘得到的,即频繁序列模式中包括文本编码标签、第一类别标签和第二类别标签,则抽取目标事件关系的实现方式可以是确定频繁序列模式中文本编码标签对应的第一向量编码序列,以及待抽取文本对应的第二向量编码序列,若第二向量编码序列中第二向量与第一向量编码序列中第一向量的相似度高于第一阈值,确定第二向量具有第一向量对应的文本编码标签。根据频繁序列模式和第二向量编码序列中的文本编码标签匹配得到上下文中的目标事件关系。
以目标事件关系是事件因果关系,频繁序列模式是a#bc*为例,确定频繁序列模式中文本编码标签对应的第一向量编码序列,以及对待抽取文本进行文本向量化,得到待抽取文本的第二向量编码序列。计算向量相似度,若第二向量编码序列中第二向量与第一向量编码序列中第一向量的相似度高于第一阈值,为第二向量标注与第一向量相同的文本编码标签,例如abc,并根据该文本编码标签所构成的频繁序列模式匹配得到上下文中的目标事件关系。即已经确定了待抽取文本中文本编码标签abc分别所对应的文本,那么依据频繁序列模式所反映的编码序列特征,a的下文,b的上文,即位于a和b之间的文本可以确定为因事件,c的下文可以确定为果事件。
例如,若待抽取文本中出现与“零售市场、伴随、业绩”相似的第二向量(序列顺序固定),那么“零售市场#伴随业绩*”整体构成事件因果关系。
得到新的目标事件关系后,可以利用抽取到的目标事件关系对S201中的事件关系对进行扩充,重新生成目标类序列规则后,即扩充第一类别标签和第二类别标签以重新进行目标类序列规则挖掘。通过不断迭代能够动态更新生成的目标类序列规则,灵活匹配抽取目标事件关系,提高其泛化能力。并且该目标类序列规则的扩展无需依赖专家和先验知识库,降低了人力成本和耗时,线上更新及时。
由上述技术方案可以看出,为了实现目标事件关系抽取,可以根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,该事件关系对中包括第一事件和第二事件,第一事件与第二事件通过指定关联词连接以具有目标事件关系。然后根据事件关系对之间第一事件的相似程度和该事件关系对之间第二事件的相似程度,对事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,为同一个事件关系对中第一事件标记第一类别标签,第二事件标记第二类别标签。针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,目标类序列规则用于指示事件文本的编码序列特征,即体现了具有目标事件关系的文本的编码序列特征。当需要对待抽取文本进行目标事件关系抽取时,可以确定待抽取文本与目标类序列规则的匹配程度,进而根据匹配程度确定待抽取文本中的目标事件关系。本申请可以在基于指定关联词召回事件文本后,自动根据事件文本灵活地生成目标类序列规则,解决了相关技术中需要依赖人工制定模式的问题。且目标类序列规则体现了具有目标事件关系的文本的编码序列特征,一旦文本符合该编码序列特征,便可以根据目标类序列规则从中确定目标事件关系,提高了模式的覆盖率、增加召回率。
另外,本申请实施例提供的方法在不需要神经网络模型等复杂网络训练的前提下,高效且灵活地抽取目标事件关系。由于具有目标事件关系的第一事件与第二事件存在的隐含模式,即第一事件和第二事件之间形成的目标事件关系是隐性目标事件关系。通常情况下,隐性目标事件关系中第一事件和第二事件通过一些不能明显表示事件关系的关联词进行连接,这些关联词例如包括除了指定关联词之外的其他关联词。例如,目标事件关系为事件因果关系,第一事件和第二事件通过“持续的”、“随之”这类关联词连接,仅通过关联词不能确定第一事件和第一事件之间具有目标事件关系,还需要进一步结合第一事件和第二事件的语义进行分析,从而确定第一事件和第二事件之间具有目标事件关系,则该目标事件关系可以称为隐性目标事件关系。而频繁序列模式挖掘能够很好地抽取目标事件关系的相关特征,在工业上具备良好的可操作性。
接下来,将对前述介绍的根据编码序列集确定满足支持度阈值的频繁序列模式的可能实现方式进行详细介绍。
本实施例将置信度设置为1,基于prefixspan算法挖掘隐藏的频繁序列模式,将编码序列作为挖掘对象。确定编码序列集中包含的设定长度的每个编码序列前缀及每个编码序列前缀对应的投影数据集,编码序列前缀由编码序列结构中包含的分词编码按照分词编码在编码序列结构中出现的顺序组成,编码序列前缀对应的投影数据集由编码序列前缀在各个编码序列结构中对应的后缀组成,编码序列前缀在各个编码序列结构中对应的后缀包括各个编码序列结构中位于编码序列前缀之后的各个分词编码。对于在各个编码序列结构中的出现次数大于最小支持度的每个频繁编码序列前缀,将频繁编码序列前缀添加至频繁序列数据集,并将频繁编码序列前缀与对应的投影数据集中的分词编码合并,得到迭代编码序列前缀;对于每个迭代编码序列前缀,重复执行确定迭代编码序列前缀对应的投影数据集,以及将在各个编码序列结构中的出现次数大于最小支持度的频繁迭代编码序列前缀添加至频繁序列数据集,并将频繁迭代编码序列前缀与对应的投影数据集中的分词编码合并的步骤,直至迭代编码序列前缀对应的投影数据集为空;对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的编码序列前缀作为频繁序列模式。
假设文本A的编码序列为:#cafg*,文本B编码序列为:#cdag*f。基于Prefixspan算法挖掘含有第一类别标签和第二类别标签的编码序列中的频繁序列模式,假设所设定的最小支持度阈值为0.5,那么满足该阈值的一项前缀(编码序列前缀)与其对应后缀(投影数据集)分别如表2所示:
表2
Figure 745048DEST_PATH_IMAGE033
同样地,满足最小支持度阈值的二项前缀和对应后缀分别如表3所示:
表3
Figure 524785DEST_PATH_IMAGE034
满足最小支持度阈值的三项前缀和对应后缀分别如表4所示:
表4
Figure 919995DEST_PATH_IMAGE035
满足最小支持度阈值的四项前缀和对应后缀分别如表5所示:
表5
Figure 547416DEST_PATH_IMAGE036
满足最小支持度阈值的五项前缀和对应后缀分别如表6所示:
表6
Figure 369879DEST_PATH_IMAGE037
以上最大长度前缀#cag*为挖掘得到的频繁序列模式。
若基于第二种方式挖掘频繁序列模式,生成事件文本对应的编码序列分别是“苏宁a#bc的*”和“a#b影响c*”,假设所设定的最小支持度阈值为0.5,那么满足该阈值的一项前缀与其对应后缀分别如表7所示:
表7
Figure DEST_PATH_IMAGE038
同样地,满足最小支持度阈值的二项前缀和对应后缀分别如表8所示:
表8
Figure 699229DEST_PATH_IMAGE039
满足最小支持度阈值的三项前缀和对应后缀分别如表9所示:
表9
Figure DEST_PATH_IMAGE040
满足最小支持度阈值的四项前缀和对应后缀分别如表10所示:
表10
Figure 898129DEST_PATH_IMAGE041
满足最小支持度阈值的五项前缀和对应后缀分别如表11所示:
表11
Figure DEST_PATH_IMAGE042
以上最大长度前缀a#bc*为挖掘得到的频繁序列模式。
需要说明的是,上述表2-表11所示仅是其中的一种前缀及对应的后缀,并未一一举例。若对所有可能的前缀及对应的后缀一一举例,上述两种情况得到的频繁序列模式可能还包括其他序列,则后续可能基于多个频繁序列模式抽取目标事件关系。
通过类序列规则多轮迭代挖掘目标类序列规则能够确保目标事件关系的召回率,解决了一般规则固有的查全率和召回率呈现负相关的问题,因此本申请实施例提供给的方法更符合工业级应用所要求达到的效果。
在一些情况下,由于基于指定关联词获取的事件文本可能多数为显性目标事件关系,然而目标事件关系是灵活变化的,许多目标事件关系是隐性目标事件关系,或者由于人工知识有限,难以制定全部指定关联词。因此,在本实施例中,在得到事件文本后,可以对同一个所述事件关系对中的第一事件和第二事件分别进行相似度计算,从待挖掘文本中获取第一事件的相似事件和第二事件的相似事件。根据第一事件的相似事件和第二事件的相似事件对事件关系对进行扩充,进而根据扩充后的事件关系对之间第一事件和第二事件分别对应的相似程度,对扩充后的事件关系对进行分组,以便利用更加丰富的事件关系对生成类序列规则。
具体实现方式可以是对第一事件、第二事件和待挖掘文本进行文本向量化,分别得到第一事件的向量、第二事件的向量和待挖掘文本的分词向量。若第一事件的向量与第一分词向量的相似度满足第二阈值,且第二事件的向量与第二分词向量的相似度满足第三阈值,第一分词向量与第二分词向量同时出现在待挖掘文本的同一语句中,将第一分词向量对应的文本确定为第一事件的相似事件,以及将第二分词向量对应的文本确定为第二事件的相似事件。
例如,S201中获取的事件文本是根据指定关联词“导致”、“引起”、“造成”获取的,而有一些事件文本例如“苏宁零售市场缩小规模,伴随着公司盈利的增长受阻”,虽然具有目标事件关系(事件因果关系),但是其为隐性目标事件关系,未能基于指定关联词获取。因此,为了获取更加全面的包括目标事件关系的事件文本,可以计算“苏宁零售市场缩小规模,伴随着公司盈利的增长受阻”的分词向量与第一事件的向量、第二事件的向量的相似度,若确定第一事件的向量与“缩小规模”的相似度满足第二阈值,且第二事件的向量与“增长受阻”的相似度满足第三阈值,说明“缩小规模”是第一事件的相似事件,“增长受阻”是第二事件的相似事件。
在基于指定关联词得到事件文本后,由于人工指定关联词可能无法全面覆盖,故可以基于相似度计算,从而挖掘出隐性目标事件关系,从而对生成目标类序列规则所依据的事件关系对进行扩充,提高后续目标事件关系抽取的覆盖率。
接下来,结合实际应用场景对本申请实施例提供的文本处理方法进行详细介绍。该应用场景为在金融量化的相关场景中,挖掘金融事件的因果关系,以便能够更好地分析和预测个股的涨跌,辅助公司金融决策。参见图5,该方法包括:
S501、根据指定关联词和依存句法分析获取事件文本。
例如指定关联词包括导致、引起、使得、造成、引发、招致、致使等因果关联词,则第一事件是因事件,第二事件是果事件,最终确定的因事件(第一事件)为“自裁规模”,果事件(第二事件)为“增速下降6%”。
S502、将事件文本中包括的因事件和果事件进行文本向量化。
S503、相似度计算获取因事件的相似事件和果事件的相似事件,对事件文本中包括的事件关系对进行扩充,并标注第一类别标签和第二类别标签。
基于相似度计算确定出“缩减规模”、“减少规模”、“降低规模”等与“自裁规模”相似,相似的因事件与“自裁规模”都标注为第一类别标签“#”;同样的,“增速放缓”、“增速降低”、“增速放慢”等与“增速下降6%”相似,相似的果事件与“增速下降6%”都标注为第二类别标签“*”。
S504、根据扩充后的事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的频繁序列模式。
假设基于前述介绍的方法挖掘得到的频繁序列模式为“a#bc*”。
S505、根据频繁序列模式进行相似度计算,从待抽取文本中抽取事件因果关系。
S506、将抽取到的事件因果关系向用户展示,以辅助用户进行公司金融事件决策。
基于前述实施例提供的文本处理方法,本申请实施例提供一种文本处理装置,参见图6所示,所述装置包括获取单元601、分组单元602、生成单元603和确定单元604:
所述获取单元601,用于根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,所述事件关系对中包括第一事件和第二事件,所述第一事件与所述第二事件通过所述指定关联词连接以具有目标事件关系;
所述分组单元602,用于根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签;
所述生成单元603,用于针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,所述目标类序列规则用于指示所述事件文本的编码序列特征;
所述确定单元604,用于根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
在一种实现方式中,所述生成单元603,用于:
生成所述事件文本对应的编码序列,得到该组事件关系对的编码序列集,所述编码序列包括所述第一类别标签和所述第二类别标签;
根据所述编码序列集确定满足支持度阈值的频繁序列模式;
若所述频繁序列模式的置信度满足置信度阈值,则确定所述频繁序列模式符合所述目标类序列规则;
所述确定单元604,用于:
根据所述频繁序列模式与所述待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
在一种实现方式中,所述生成单元603,用于:
确定所述事件文本中分词向量对应的文本编码标签;
根据所述文本编码标签、所述第一类别标签和所述第二类别标签得到所述编码序列。
在一种实现方式中,若所述频繁序列模式中包括文本编码标签、第一类别标签和第二类别标签,所述确定单元604,用于:
确定所述频繁序列模式中所述文本编码标签对应的第一向量编码序列,以及所述待抽取文本对应的第二向量编码序列;
若所述第二向量编码序列中第二向量与所述第一向量编码序列中第一向量的相似度高于第一阈值,确定所述第二向量具有所述第一向量对应的文本编码标签;
根据所述频繁序列模式和所述第二向量编码序列中的文本编码标签匹配得到上下文中的所述目标事件关系。
在一种实现方式中,所述装置还包括扩充单元:
所述扩充单元,用于利用抽取到的目标事件关系对所述事件关系对进行扩充,重新生成所述目标类序列规则。
在一种实现方式中,所述生成单元603,用于:
确定所述编码序列集中包含的设定长度的每个编码序列前缀及每个编码序列前缀对应的投影数据集;所述编码序列前缀由编码序列结构中包含的分词编码按照分词编码在编码序列结构中出现的顺序组成,所述编码序列前缀对应的投影数据集由所述编码序列前缀在各个编码序列结构中对应的后缀组成,所述编码序列前缀在各个编码序列结构中对应的后缀包括所述各个编码序列结构中位于所述编码序列前缀之后的各个分词编码;
对于在各个编码序列结构中的出现次数大于最小支持度的每个频繁编码序列前缀,将频繁编码序列前缀添加至频繁序列数据集,并将频繁编码序列前缀与对应的投影数据集中的分词编码合并,得到迭代编码序列前缀;
对于每个迭代编码序列前缀,重复执行确定迭代编码序列前缀对应的投影数据集,以及将在各个编码序列结构中的出现次数大于最小支持度的频繁迭代编码序列前缀添加至频繁序列数据集,并将频繁迭代编码序列前缀与对应的投影数据集中的分词编码合并的步骤,直至所述迭代编码序列前缀对应的投影数据集为空;
对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的编码序列前缀作为频繁序列模式。
在一种实现方式中,所述获取单元601,还用于:
对所述事件关系对中的第一事件和第二事件分别进行相似度计算,从待挖掘文本中获取所述第一事件的相似事件和所述第二事件的相似事件;
所述扩充单元还用于:
根据所述第一事件的相似事件和所述第二事件的相似事件对所述事件关系对进行扩充;
所述分组单元602,具体用于:
根据扩充后的事件关系对之间第一事件的相似程度和所述扩充后的事件关系对之间第二事件的相似程度,对所述扩充后的事件关系对进行分组。
在一种实现方式中,所述获取单元601,用于:
对所述第一事件、所述第二事件和所述待挖掘文本进行文本向量化,分别得到所述第一事件的向量、所述第二事件的向量和所述待挖掘文本的分词向量;
若所述第一事件的向量与第一分词向量的相似度满足第二阈值,且所述第二事件的向量与第二分词向量的相似度满足第三阈值,所述第一分词向量与所述第二分词向量同时出现在所述待挖掘文本的同一语句中,将所述第一分词向量对应的文本确定为所述第一事件的相似事件,以及将所述第二分词向量对应的文本确定为所述第二事件的相似事件。
本申请实施例还提供了一种用于文本处理的设备,该设备可以是数据处理设备,用于执行文本处理方法,该设备可以是终端设备,以终端设备为智能手机为例:
图7示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图7,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块770、处理器780、以及电源790等部件。输入单元730可包括触控面板731以及其他输入设备732,显示单元740可包括显示面板741,音频电路760可以包括扬声器761和传声器762。本领域技术人员可以理解,图7中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器780是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。
在本实施例中,终端设备中的处理器780可以执行以下步骤:
根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,所述事件关系对中包括第一事件和第二事件,所述第一事件与所述第二事件通过所述指定关联词连接以具有目标事件关系;
根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签;
针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,所述目标类序列规则用于指示所述事件文本的编码序列特征;
根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
本申请实施例还提供一种服务器,请参见图8所示,图8为本申请实施例提供的服务器800的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
在本实施例中,由服务器所实现的步骤可以基于图8所述的服务器的结构实现。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的文本处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,所述事件关系对中包括第一事件和第二事件,所述第一事件与所述第二事件通过所述指定关联词连接以具有目标事件关系;
根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签;
针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,所述目标类序列规则用于指示所述事件文本的编码序列特征;
所述根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,包括:
生成所述事件文本对应的编码序列,得到该组事件关系对的编码序列集,所述编码序列包括所述第一类别标签和所述第二类别标签;
根据所述编码序列集确定满足支持度阈值的频繁序列模式;
若所述频繁序列模式的置信度满足置信度阈值,则确定所述频繁序列模式符合所述目标类序列规则;
根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系,包括:
根据所述频繁序列模式与所述待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
3.根据权利要求1所述的方法,其特征在于,所述生成所述事件文本对应的编码序列,得到该组事件关系对的编码序列集,包括:
确定所述事件文本中分词向量对应的文本编码标签;
根据所述文本编码标签、所述第一类别标签和所述第二类别标签得到所述编码序列。
4.根据权利要求2所述的方法,其特征在于,若所述频繁序列模式中包括文本编码标签、第一类别标签和第二类别标签,所述根据所述频繁序列模式与所述待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系,包括:
确定所述频繁序列模式中所述文本编码标签对应的第一向量编码序列,以及所述待抽取文本对应的第二向量编码序列;
若所述第二向量编码序列中第二向量与所述第一向量编码序列中第一向量的相似度高于第一阈值,确定所述第二向量具有所述第一向量对应的文本编码标签;
根据所述频繁序列模式和所述第二向量编码序列中的文本编码标签匹配得到上下文中的所述目标事件关系。
5.根据权利要求1-4任一项所述的方法,其特征在于,根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系之后,所述方法还包括:
利用抽取到的目标事件关系对所述事件关系对进行扩充,重新生成所述目标类序列规则。
6.根据权利要求1所述的方法,其特征在于,所述根据所述编码序列集确定满足支持度阈值的频繁序列模式,包括:
确定所述编码序列集中包含的设定长度的每个编码序列前缀及每个编码序列前缀对应的投影数据集;所述编码序列前缀由编码序列结构中包含的分词编码按照分词编码在编码序列结构中出现的顺序组成,所述编码序列前缀对应的投影数据集由所述编码序列前缀在各个编码序列结构中对应的后缀组成,所述编码序列前缀在各个编码序列结构中对应的后缀包括所述各个编码序列结构中位于所述编码序列前缀之后的各个分词编码;
对于在各个编码序列结构中的出现次数大于最小支持度的每个频繁编码序列前缀,将频繁编码序列前缀添加至频繁序列数据集,并将频繁编码序列前缀与对应的投影数据集中的分词编码合并,得到迭代编码序列前缀;
对于每个迭代编码序列前缀,重复执行确定迭代编码序列前缀对应的投影数据集,以及将在各个编码序列结构中的出现次数大于最小支持度的频繁迭代编码序列前缀添加至频繁序列数据集,并将频繁迭代编码序列前缀与对应的投影数据集中的分词编码合并的步骤,直至所述迭代编码序列前缀对应的投影数据集为空;
对得到的频繁序列数据集进行过滤,将过滤后频繁序列数据集中的编码序列前缀作为频繁序列模式。
7.根据权利要求1-4任一项所述的方法,其特征在于,在所述获取多个事件文本之后,所述方法还包括:
对所述事件关系对中的第一事件和第二事件分别进行相似度计算,从待挖掘文本中获取所述第一事件的相似事件和所述第二事件的相似事件;
根据所述第一事件的相似事件和所述第二事件的相似事件对所述事件关系对进行扩充;
根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,包括:
根据扩充后的事件关系对之间第一事件的相似程度和所述扩充后的事件关系对之间第二事件的相似程度,对所述扩充后的事件关系对进行分组。
8.根据权利要求7所述的方法,其特征在于,所述对所述事件关系对中的第一事件和第二事件分别进行相似度计算,从待挖掘文本中获取所述第一事件的相似事件和所述第二事件的相似事件,包括:
对所述第一事件、所述第二事件和所述待挖掘文本进行文本向量化,分别得到所述第一事件的向量、所述第二事件的向量和所述待挖掘文本的分词向量;
若所述第一事件的向量与第一分词向量的相似度满足第二阈值,且所述第二事件的向量与第二分词向量的相似度满足第三阈值,所述第一分词向量与所述第二分词向量同时出现在所述待挖掘文本的同一语句中,将所述第一分词向量对应的文本确定为所述第一事件的相似事件,以及将所述第二分词向量对应的文本确定为所述第二事件的相似事件。
9.一种文本处理装置,其特征在于,所述装置包括获取单元、分组单元、生成单元和确定单元:
所述获取单元,用于根据目标事件关系对应的指定关联词,获取多个事件文本,每个事件文本包括事件关系对,所述事件关系对中包括第一事件和第二事件,所述第一事件与所述第二事件通过所述指定关联词连接以具有目标事件关系;
所述分组单元,用于根据所述事件关系对之间第一事件的相似程度和所述事件关系对之间第二事件的相似程度,对所述事件关系对进行分组,属于同一组的事件关系对之间第一事件与第二事件分别相似,同一个事件关系对中第一事件具有第一类别标签,第二事件具有第二类别标签;
所述生成单元,用于针对每组事件关系对,根据事件关系对所对应的事件文本生成具有第一类别标签和第二类别标签的目标类序列规则,所述目标类序列规则用于指示所述事件文本的编码序列特征;
所述生成单元,用于:
生成所述事件文本对应的编码序列,得到该组事件关系对的编码序列集,所述编码序列包括所述第一类别标签和所述第二类别标签;
根据所述编码序列集确定满足支持度阈值的频繁序列模式;
若所述频繁序列模式的置信度满足置信度阈值,则确定所述频繁序列模式符合所述目标类序列规则;
所述确定单元,用于根据所述目标类序列规则与待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
10.根据权利要求9所述的装置,其特征在于,所述确定单元,用于:
根据所述频繁序列模式与所述待抽取文本的匹配程度,确定所述待抽取文本中的所述目标事件关系。
11.根据权利要求9所述的装置,其特征在于,所述生成单元,用于:
确定所述事件文本中分词向量对应的文本编码标签;
根据所述文本编码标签、所述第一类别标签和所述第二类别标签得到所述编码序列。
12.根据权利要求10所述的装置,其特征在于,若所述频繁序列模式中包括文本编码标签、第一类别标签和第二类别标签,所述确定单元,用于:
确定所述频繁序列模式中所述文本编码标签对应的第一向量编码序列,以及所述待抽取文本对应的第二向量编码序列;
若所述第二向量编码序列中第二向量与所述第一向量编码序列中第一向量的相似度高于第一阈值,确定所述第二向量具有所述第一向量对应的文本编码标签;
根据所述频繁序列模式和所述第二向量编码序列中的文本编码标签匹配得到上下文中的所述目标事件关系。
13.根据权利要求9-12任一项所述的装置,其特征在于,所述装置还包括扩充单元:
所述扩充单元,用于利用抽取到的目标事件关系对所述事件关系对进行扩充,重新生成所述目标类序列规则。
14.一种用于文本处理的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-8任一项所述的方法。
CN202011506473.0A 2020-12-18 2020-12-18 一种文本处理方法和相关装置 Active CN112287111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011506473.0A CN112287111B (zh) 2020-12-18 2020-12-18 一种文本处理方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011506473.0A CN112287111B (zh) 2020-12-18 2020-12-18 一种文本处理方法和相关装置

Publications (2)

Publication Number Publication Date
CN112287111A CN112287111A (zh) 2021-01-29
CN112287111B true CN112287111B (zh) 2021-03-23

Family

ID=74426875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011506473.0A Active CN112287111B (zh) 2020-12-18 2020-12-18 一种文本处理方法和相关装置

Country Status (1)

Country Link
CN (1) CN112287111B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010642B (zh) * 2021-03-17 2023-12-15 腾讯科技(深圳)有限公司 语义关系的识别方法、装置、电子设备及可读存储介质
CN113362026A (zh) * 2021-06-04 2021-09-07 北京金山数字娱乐科技有限公司 文本处理方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242278A (zh) * 2008-02-18 2008-08-13 华中科技大学 网络多步攻击意图在线识别方法
US10572601B2 (en) * 2017-07-28 2020-02-25 International Business Machines Corporation Unsupervised template extraction
CN109308323A (zh) * 2018-12-07 2019-02-05 中国科学院长春光学精密机械与物理研究所 一种因果关系知识库的构建方法、装置及设备
CN109871955B (zh) * 2019-01-22 2022-12-27 中国民航大学 一种航空安全事故因果关系抽取方法
CN111191127B (zh) * 2019-12-24 2023-02-03 重庆特斯联智慧科技股份有限公司 一种基于关联分析算法的旅行推荐方法和系统
CN111310461B (zh) * 2020-01-15 2023-03-21 腾讯云计算(北京)有限责任公司 事件元素提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112287111A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN109299362B (zh) 相似企业推荐方法、装置、计算机设备及存储介质
CN102737333B (zh) 用于计算用户和要约到微小细分的匹配的顺序引擎
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN109471978B (zh) 一种电子资源推荐方法及装置
CN110866119B (zh) 一种文章质量的确定方法、装置、电子设备及存储介质
CN110309114B (zh) 媒体信息的处理方法、装置、存储介质和电子装置
US20130246463A1 (en) Prediction and isolation of patterns across datasets
CN112287111B (zh) 一种文本处理方法和相关装置
CN110362689A (zh) 一种风险评估方法、装置、存储介质和服务器
Rodrigues et al. Real-time Twitter trend analysis using big data analytics and machine learning techniques
KR101931624B1 (ko) 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체
CN107545505A (zh) 保险理财产品信息的识别方法及系统
Niyogi et al. Discovering conversational topics and emotions associated with demonetization tweets in India
CN112801425A (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
Wilson et al. Clustering short temporal behaviour sequences for customer segmentation using LDA
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及系统
CN109961801A (zh) 智能服务评价方法、计算机可读存储介质和终端设备
US11822609B2 (en) Prediction of future prominence attributes in data set
US20220156304A1 (en) Relationship discovery and quantification
CN112561412B (zh) 目标对象标识的确定方法、装置、服务器及存储介质
CN114169418A (zh) 标签推荐模型训练方法及装置、标签获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038180

Country of ref document: HK