CN113326691B - 数据处理方法和装置、电子设备、计算机可读介质 - Google Patents

数据处理方法和装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN113326691B
CN113326691B CN202110587370.XA CN202110587370A CN113326691B CN 113326691 B CN113326691 B CN 113326691B CN 202110587370 A CN202110587370 A CN 202110587370A CN 113326691 B CN113326691 B CN 113326691B
Authority
CN
China
Prior art keywords
sentence
candidate
entity
sample
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110587370.XA
Other languages
English (en)
Other versions
CN113326691A (zh
Inventor
周厚谦
章文俊
钟辉强
黄强
徐思琪
刘晨晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110587370.XA priority Critical patent/CN113326691B/zh
Publication of CN113326691A publication Critical patent/CN113326691A/zh
Application granted granted Critical
Publication of CN113326691B publication Critical patent/CN113326691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

本公开提供了一种数据处理方法和装置,涉及人工智能技术领域,进一步涉及深度学习、自然语言处理等技术领域。具体实现方案为:接收文本数据;基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句;对至少一个候选语句进行实体提取,得到候选实体;去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句;基于有效语句和候选实体,得到被触发语句。该实施方式提高了文本数据抽取的准确性。

Description

数据处理方法和装置、电子设备、计算机可读介质
技术领域
本公开涉及数据处理技术领域,具体涉及人工智能技术领域,进一步涉及深度学习、自然语言处理等技术领域,尤其涉及一种数据处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术
现有言论抽取方案主要基于规则引擎和实体、句法分析,规则引擎需要基于语言规则制定大量的规则模板,需要专家经验指导,泛化性低;采用实体、句法分析提取子句作为言论,依赖于现有实体抽取和句法分析模型效果,然而现实文本句子形式复杂,通过句法分析提取的子句往往有缺失,准确性较低。
发明内容
提供了一种数据处理方法和装置、电子设备、计算机可读介质以及计算机程序产品。
根据第一方面,提供了一种数据处理方法,该方法包括:接收文本数据;基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句;对至少一个候选语句进行实体提取,得到候选实体;去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句;基于有效语句和候选实体,得到被触发语句。
根据第二方面,提供了一种数据处理装置,该装置包括:接收单元,被配置成接收文本数据;筛选单元,被配置成基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句;提取单元,被配置成对至少一个候选语句进行实体提取,得到候选实体;去除单元,被配置成去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句;触发单元,被配置成基于有效语句和候选实体,得到被触发语句。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。
本公开的实施例提供的数据处理方法和装置,首先,接收文本数据;其次,基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句;再次,对至少一个候选语句进行实体提取,得到候选实体;从次,去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句;最后,基于有效语句和候选实体,得到被触发语句。由此,采用预设的触发词筛选候选语句,提高了被触发语句提取效率和准确性;进一步对候选语句进行实体提取以及无效候选语句的去除,保证了被触发语句得到的可靠性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开数据处理方法的一个实施例的流程图;
图2是根据本公开实施例中实体抽取模型的一种结构示意图;
图3是根据本公开实施例中得到被触发语句的方法的流程图;
图4是根据本公开实施例中被触发语句抽取模型的一种结构示意图;
图5是根据本公开数据处理装置的实施例的结构示意图;
图6是用来实现本公开实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了根据本公开数据处理方法的一个实施例的流程100,上述数据处理方法包括以下步骤:
步骤101,接收文本数据。
本实施例中,文本数据可以是数据处理方法运行于其上的执行主体通过多种方式接收得到的文本信息,例如,与客户终端通信,接收的客户终端发送的文本数据,该文本数据可以包括多个不同实体执行相同或不同动作语句;再如,文本数据是执行主体在互联网中实时订阅的全网海量的舆情新闻数据,而该舆情新闻数据是一定范围内群众的看法、意见的集合的数据。
步骤102,基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句。
本实施例中,预设的触发词可以是存储在固定内存或者出现在文本数据中的词语或字,通过触发词可以得到文本数据中包括触发词的语句,该包括触发词的语句即为候选语句。
本实施例中,对文本数据进行语句筛选可以包括:使用标点符号(除引号外),如句号、省略号、分号等对文本数据进行分句,得到多个语句;历遍所有的语句,在该多个语句中查询包含触发词的语句,并去除所有未包含触发词的语句,得到至少一个候选语句。
可选地,基于预设的触发词,还可以在文本数据中提取出一些与触发词同义的词,这些提取出的词可以用于对预设的触发词进行扩展。例如,说”的同义词为“说道,直言”等。进一步地,基于扩展后的触发词,得到至少一个候选语句。
本实施例中,基于预设的触发词,对文本数据进行语句筛选,可以提高具有触发词语句的抽取效率,减少后续被触发语句提取时的数据压力,同时还可以提高实体抽取准确率。
步骤103,对至少一个候选语句进行实体提取,得到候选实体。
本实施例中,在基于预设的触发词,得到至少一个候选语句后,历遍所有候选语句,提取所有候选语句中实体,该提取的实体即为候选实体。
步骤104,去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句。
本实施例中,在得到至少一个候选语句中,去除所有候选语句中没有候选实体的候选语句,得到的候选语句即为有效语句,该得到的有效语句为包括至少一个触发词、至少一个候选实体的至少一个候选语句。
步骤105,基于有效语句和候选实体,得到被触发语句。
本实施例中,有效语句是包括触发词的语句,基于有效语句中的候选实体、触发词,可以得到有效语句中与候选实体对应的触发词触发的被触发语句。
对于该舆情新闻数据,该被触发语句即为与候选实体对应的触发词相关的行为言论语句,而通过对有效语句中的被触发语句的提取,可以有效确定不同实体的具体的行为动作以及言论内容。
例如,当有效语句为“张某说xxx”的言论语句,候选实体为“张某”,触发词为“说”,则有效语句中“说”后的内容即为触发词触发的被触发语句。再如,有效语句为“李某种花”的事件语句,候选实体为“李某”,触发词为“种”,则有效语句中“种”后的内容即为触发词触发的被触发语句。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本实施例中,通过采用本公开提供的数据处理方法对海量的舆情新闻数据进行处理,可以进行快速有效提取出新闻中涉及的言论行为语句,包括言论的发起者,发起者类型以及行为言论句(即被触发语句)。
本公开的实施例提供的数据处理方法,首先,接收文本数据;其次,基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句;再次,对至少一个候选语句进行实体提取,得到候选实体;从次,去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句;最后,基于有效语句和候选实体,得到被触发语句。由此,采用预设的触发词筛选候选语句,提高了被触发语句提取效率和准确性;进一步对候选语句进行实体提取以及无效候选语句的去除,保证了被触发语句得到的可靠性。
在本实施例的一些可选实现方式中,对至少一个候选语句进行实体提取,得到候选实体,包括:将至少一个候选语句依次输入已训练完成的实体抽取模型,得到实体抽取模型输出的候选实体。
本可选实现方式中,将候选语句输入已训练完成的实体抽取模型,实体抽取模型输出候选语句中的不同实体的标签,各个实体标签可以包括实体名称。
本可选实现方式中,实体抽取模型可以采用序列标注模型结构,例如, BERT(Bidirectional Encoder Representation from Transformers,双向编码表征模型)模型,LSTM(Long Short-Term Memory,长期和短期记忆)模型等。
可选地,实体抽取模型还可以采用由BiLSTM-CRF组成的模型,其中,采用BiLSTM(Bi-directional Long Short-Term Memory,双向LSTM) 解决了候选语句的文本之间的长依赖问题,CRF(conditional random field,条件随机场)保证了实体抽取模型输出标签之间的顺序性和约束规则。
可选地,实体抽取模型可以采用以下步骤训练:获取标注样本;采用 BiLSTM-CRF模型结构构建名词抽取模型;采用标注样本对名词抽取模型进行训练;响应于名词抽取模型满足训练完成条件,则将名词抽取模型作为实体抽取模型。
本可选实现方式提供的得到候选实体的方法,采用至少一个候选语句和实体抽取模型得到候选实体,相对于传统的实体抽取模型,得到的候选实体更精确。
在本实施例的一些可选实现方式中,上述实体抽取模型采用以下步骤训练:获取标注样本;对标注样本进行数据增强,得到增强后的标注样本;采用BiLSTM-CRF模型结构构建名词抽取模型;采用增强后的标注样本对名词抽取模型进行训练;响应于名词抽取模型满足训练完成条件,则将名词抽取模型作为实体抽取模型。
本可选实现方式中,训练完成条件可以包括以下至少一项:名词抽取模型的训练迭代次数达到预定迭代阈值,名词抽取模型的损失函数的损失值小于预定损失值阈值。例如,训练迭代达到5千次。损失值小于0.05。
如采用候选语句“浙某公司宏观高级分析师郑某表示,随着疫苗接种不断推进,市场对未来经济存明显改善预期”对实体抽取模型训练过程如下:
训练采用人工标注好的标注样本,标注形式为BIO方式,其中B_P表示一种实体开头,I_P表示该种实体除开头外的其余部分,O表示其他,如下:
浙/B_P某/I_P公/I_P司/I_P宏/I_P观/I_P高/I_P级/I_P分/I_P 析/I_P师/I_P郑/I_P某/I_P表/O示/O,/O随/O着/O疫/O苗/O接 /O种/O不/O断/O推/O进/O,/O以/O及/O近/O期/O杨/B_P某/I 讲/O话/O内/O容/O提/O振/O,/O市/O场/O对/O未/O来/O经/O 济/O存/O明/O显/O改/O善/O预/O期/O。/O
数据增强,为了提高数据多样性,增强模型的泛化性,训练时除了可以采用同义词替换,还通过将不同样本间的实体进行替换,增加或去除实体前缀等获得新样本。
实体抽取模型采用BiLSTM-CRF结构,如图2所示,输入候选语句的文本数据,输出标签序列(BIO),其中B_P表示一种实体开头,I_P表示该种实体除开头外的其余部分,O表示其他;标注样本中90%作为训练集对模型进行拟合训练,10%作为验证集用于验证模型的训练效果。
本可选方式中,对标注样本进行数据增强,提高了标注样本的数据,保证了实体抽取模型的训练效果,采用双向BiLSTM解决了文本之间的长依赖问题,CRF保证了输出标签之间的顺序性和约束规则,采用BiLSTM- CRF序列标注模型代替传统的规则抽取和实体抽取模型,提高实体抽取的精确率和召回率。
在本实施例的一些可选实现方式中,上述实体抽取模型采用的标注样本包括:样本语句中的实体名称,以及对实体名称的标注;对标注样本进行数据增强,得到增强后的标注样本包括:将样本语句中的实体名称采用同义词替换,得到新的实体名称;对新的实体名称进行与样本语句中相同的标注,得到新的样本语句;将样本语句和新的样本语句组合在一起,得到增强后的标注样本。
本可选实现方式中,采用同义词替换样本语句中的实体名称的数据增强的方法,解决了原标注数据量不足导致泛化性降低的问题。
可选地,对上述标注样本进行数据增强,得到增强后的标注样本还可以包括:将不同样本语句之间的实体进行相互替换。
可选地,对上述标注样本进行数据增强,得到增强后的标注样本还可以包括:增加或去除不同样本语句中的实体。比如有两个样本语句a,b,其中,样本语句a是张三说了xxx,样本语句b是李四说了yyy,经过替换后就变成张三说了yyy,李四说了xxx,由此两条样本语句就增强为4个样本语句了。
图3示出了根据本公开实施例中得到被触发语句的方法的流程图300,上述得到被触发语句的方法包括以下步骤:
步骤301,在有效语句中确定与候选实体对应的候选语句。
本实施例中,有效语句为包括至少一个触发词、至少一个候选实体的至少一个候选语句。针对每个候选实体,在有效语句的每个候选语句中查询包括该候选实体的候选语句,从而确定与该候选实体对应的候选语句。
步骤302,基于候选实体与候选实体对应的候选语句,构造实体语句对。
本实施例中,实体语句对是一种候选实体与候选语句的组合方式,一般地,实体语句对包括:一个候选实体以及一个候选语句。
可选地,实体语句对还可以包括:多个候选实体以及一个候选语句,通过进一步对该包括多个候选实体以及一个候选语句的实体语句对进行拆分还可以得到包括一个候选实体以及一个候选语句的实体语句对。
例如,在有效语句的同一个候选语句中识别出两个实体a和b,a与候选语句构成一个实体语句对,b与候选语句也构成一个实体语句对。
步骤303,将实体语句对输入已训练完成的被触发语句抽取模型,得到被触发语句抽取模型输出的被触发语句。
本实施例中,实体语句对为候选实体与候选语句的组合方式,该实体语句对中候选语句包括触发词,而候选语句中被触发词触发的语句即为被触发语句。
本实施例中,被触发语句抽取模型用于抽取实体语句对中的被触发语句。区别于传统的实体抽取模型,被触发语句抽取模型的输入除了句子本身,还额外添加了实体的标识信息,例如将实体语句对中实体所在位置的标识为1,其余为0。增加标识信息的目的是使被触发语句抽取模型确定实体的位置;标识信息在实体语句对的候选语句输入的同时输入到被触发语句抽取模型中去,详见图4所示,其中O表示除B、E的无关信息。
本可选实现方式提供的得到被触发语句的方法,在有效语句中确定与候选实体对应的句子,构造实体语句对,采用实体语句对和被触发语句抽取模型得到被触发语句,相对于传统的实体抽取模型,得到的被触发语句具有更精确的结果。
在本实施例的一些可实现方式中,被触发语句抽取模型采用以下步骤训练:获取标注样本;对标注样本进行数据增强,得到增强后的标注样本;采用BiLSTM-CRF模型结构构建语句抽取模型;采用增强后的标注样本对语句抽取模型进行训练;响应于语句抽取模型满足训练完成条件,则将语句抽取模型作为被触发语句抽取模型。
继续以“浙某公司宏观高级分析师郑某表示,随着疫苗接种不断推进,市场对未来经济存明显改善预期”这一言论句作为标注样本,说明被触发语句抽取模型训练如下:
训练采用人工标注好的样本,采用头尾标注的形式,B表示言论句开头,E表示言论句结尾,如下:
浙/O某/O公/O司/O宏/O观/O高/O级/O分/O析/O师/O郑/O 某/O表/O示/O,/O随/B着/O疫/O苗/O接/O种/O不/O断/O推/O 进/O,/O以/O及/O近/O期/O杨/O某/O讲/O话/O内/O容/O提/O 振/O,/O市/O场/O对/O未/O来/O经/O济/O存/O明/O显/O改/O 善/O预/O期/O。/E
数据增强,为了提高数据多样性,增强模型的泛化性,训练时除了可以采用同义词替换,还通过不同样本间的实体替换,触发词替换等获得新样本。
模型同样采用BiLSTM-CRF结构,如图4所示,输入文本数据和标识,输出标签序列(BOE),标注样本中90%作为训练集对模型进行拟合训练,10%作为验证集用于验证模型的训练效果。
本可选方式中,采用双向BiLSTM解决了文本之间的长依赖问题, CRF保证了输出标签之间的顺序性和约束规则。采用BiLSTM-CRF序列标注模型代替传统的规则抽取和实体抽取模型,提高语句抽取的精确率和召回率。
在本实施例的一些可选实现方式中,上述被触发语句抽取模型采用的标注样本包括:样本语句中的被触发语句的起止词,以及对起止词的标注;上述对标注样本进行数据增强,得到增强后的标注样本包括:将样本语句中的起止词采用同义词替换,得到新的起止词;对新的起止词进行与样本语句中相同的标注,得到新的样本语句;将样本语句和新的样本语句组合在一起,得到增强后的标注样本。
本可选实现方式中,起止词包括被触发语句中的开始字或词、结束字或词中的至少一项,比如,起止词包括:触发语句的开始词、结束词、开始词和结束词、触发语句的字、结束字、开始字和结束字中的一种。例如,样本语句为:李四吃了栗子鸡,触发语句为:吃了栗子鸡,则起止词可以是:吃、鸡或吃和鸡。
本可选实现方式中,采用同义词替换样本语句中的起止词的数据增强的方法,解决了原标注数据量不足导致泛化性降低的问题。
在本实施例的一些可选实现方式中,基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句,包括:基于预设的触发词,构建前缀树;将文本数据与前缀树中的子树进行匹配,得到包括触发词的至少一个候选语句。
本实施例中,触发词可以根据获取被触发语句需求进行预先设置,比如,针对言论句中,触发词可以是“说”“直言”“说道”等。针对事件性语句,触发词可以是“做”“想”等。
本可选实现方式中,前缀树常用于搜索提示。例如当输入一个含有“说”字的文本数据,可以自动搜索出包括“说”的至少一个候选语句。当文本数据没有与“说”完全匹配的搜索结果,可以返回前缀最相似的候选语句。
本可选实现方式中,通过文本数据与前缀树中的子树进行匹配得到至少一个候选语句,提高了候选语句得到的效率,保证了候选语句获得的全面性。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了数据处理装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
如图5所示,本实施例提供的数据处理装置500包括:接收单元501,筛选单元502,提取单元503,去除单元504,触发单元505。其中,上述接收单元501,可以被配置成接收文本数据。上述筛选单元502,可以被配置成基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句。上述提取单元503,可以被配置成对至少一个候选语句进行实体提取,得到候选实体。上述去除单元504,可以被配置成去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句。上述触发单元505,可以被配置成基于有效语句和候选实体,得到被触发语句。
在本实施例中,数据处理装置500中:接收单元501,筛选单元502,提取单元503,去除单元504,触发单元505的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述触发单元505包括:确定模块(图中未示出),构造模块(图中未示出),触发模块(图中未示出)。其中,上述确定模块,被配置成在有效语句中确定与候选实体对应的候选语句。上述构造模块,被配置成被配置成基于候选实体与候选实体对应的候选语句,构造实体语句对。上述触发模块,被配置成将实体语句对输入已训练完成的被触发语句抽取模型,得到被触发语句抽取模型输出的被触发语句。
在本实施例的一些可选的实现方式中,上述被触发语句抽取模型采用以下单元训练得到:第一获取单元(图中未示出),第一增强单元(图中未示出),第一构建单元(图中未示出),第一训练单元(图中未示出),第一抽取单元(图中未示出)。其中,上述第一获取单元,被配置成获取标注样本。上述第一增强单元,被配置成对标注样本进行数据增强,得到增强后的标注样本。上述第一构建单元,被配置成采用BiLSTM-CRF模型结构构建语句抽取模型。上述第一训练单元,被配置成采用增强后的标注样本对语句抽取模型进行训练。上述第一抽取单元,被配置成响应于语句抽取模型满足训练完成条件,则将语句抽取模型作为被触发语句抽取模型。
在本实施例的一些可选的实现方式中,上述标注样本包括:样本语句中的被触发语句的起止词,以及起止词的标注;上述第一增强单元包括:第一替换模块(图中未示出),第一标注模块(图中未示出),第一组合模块(图中未示出)。其中,上述第一替换模块,被配置成将样本语句中的起止词采用同义词替换,得到新的起止词。上述第一标注模块,被配置成对新的起止词进行与样本语句中相同的标注,得到新的样本语句。上述第一组合模块,被配置成将样本语句和新的样本语句组合在一起,得到增强后的标注样本。
在本实施例的一些可选的实现方式中,上述提取单元503进一步被配置成:将至少一个候选语句依次输入已训练完成的实体抽取模型,得到实体抽取模型输出的候选实体。
在本实施例的一些可选的实现方式中,上述实体抽取模型采用以下单元训练得到:第二获取单元(图中未示出),第二增强单元(图中未示出),第二构建单元(图中未示出),第二训练单元(图中未示出),第二抽取单元(图中未示出)。其中,上述第二获取单元,被配置成获取标注样本。上述第二增强单元,被配置成对标注样本进行数据增强,得到增强后的标注样本。上述第二构建单元,被配置成采用BiLSTM-CRF模型结构构建名词抽取模型。上述第二训练单元,被配置成采用增强后的标注样本对名词抽取模型进行训练。上述第二抽取单元,被配置成响应于名词抽取模型满足训练完成条件,则将名词抽取模型作为实体抽取模型。
在本实施例的一些可选的实现方式中,上述标注样本包括:样本语句中的实体名称,以及实体名称的标注。上述第二增强单元包括:第二替换模块(图中未示出),第二标注模块(图中未示出),第二组合模块(图中未示出)。其中,上述第二替换模块,被配置成将样本语句中的实体名称采用同义词替换,得到新的实体名称。上述第二标注模块,被配置成对新的实体名称进行与样本语句中相同的标注,得到新的样本语句。上述第二组合模块,被配置成将样本语句和新的样本语句组合在一起,得到增强后的标注样本。
在本实施例的一些可选的实现方式中,上述筛选单元502包括:前缀模块(图中未示出),匹配模块(图中未示出)。其中,前缀模块,被配置成基于预设的触发词,构建前缀树。上述匹配模块,被配置成将文本数据与前缀树中的子树进行匹配,得到包括触发词的至少一个候选语句。
本公开的实施例提供的数据处理装置,首先,接收单元501接收文本数据;其次,筛选单元502基于预设的触发词,对文本数据进行语句筛选,得到至少一个候选语句;再次,提取单元503对至少一个候选语句进行实体提取,得到候选实体;从次,去除单元504去除至少一个候选语句中所有无候选实体的候选语句,得到有效语句;最后,触发单元505基于有效语句和候选实体,得到被触发语句。由此,采用预设的触发词筛选候选语句,提高了被触发语句提取效率和准确性;进一步对候选语句进行实体提取以及无效候选语句的去除,保证了被触发语句得到的可靠性。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、 ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口 605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元 608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和 /或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到 RAM 603并由计算单元601执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (16)

1.一种数据处理方法,所述方法包括:
接收文本数据;
基于预设的触发词,对所述文本数据进行语句筛选,得到至少一个候选语句;
对所述至少一个候选语句进行实体提取,得到候选实体;
去除所述至少一个候选语句中所有无所述候选实体的候选语句,得到有效语句;
基于所述有效语句和所述候选实体,得到被触发语句;所述基于所述有效语句和所述候选实体,得到被触发语句,包括:
在所述有效语句中确定与所述候选实体对应的候选语句;
基于所述候选实体与所述候选实体对应的候选语句,构造实体语句对;
将所述实体语句对输入已训练完成的被触发语句抽取模型,得到所述被触发语句抽取模型输出的被触发语句。
2.根据权利要求1所述的方法,其中,所述被触发语句抽取模型采用以下步骤训练:
获取标注样本;
对所述标注样本进行数据增强,得到增强后的标注样本;
采用双向长短期记忆网络和条件随机场BiLSTM-CRF模型结构构建语句抽取模型;
采用所述增强后的标注样本对所述语句抽取模型进行训练;
响应于所述语句抽取模型满足训练完成条件,则将所述语句抽取模型作为所述被触发语句抽取模型。
3.根据权利要求2所述的方法,其中,所述标注样本包括:样本语句中的被触发语句的起止词,以及对所述起止词的标注;
所述对所述标注样本进行数据增强,得到增强后的标注样本包括:
将所述样本语句中的起止词采用同义词替换,得到新的起止词;
对所述新的起止词进行与所述样本语句中相同的标注,得到新的样本语句;
将所述样本语句和所述新的样本语句组合在一起,得到增强后的标注样本。
4.根据权利要求1所述的方法,其中,所述对所述至少一个候选语句进行实体提取,得到候选实体,包括:
将所述至少一个候选语句依次输入已训练完成的实体抽取模型,得到所述实体抽取模型输出的候选实体。
5.根据权利要求4所述的方法,其中,所述实体抽取模型采用以下步骤训练:
获取标注样本;
对所述标注样本进行数据增强,得到增强后的标注样本;
采用双向长短期记忆网络和条件随机场BiLSTM-CRF模型结构构建名词抽取模型;
采用所述增强后的标注样本对所述名词抽取模型进行训练;
响应于所述名词抽取模型满足训练完成条件,则将所述名词抽取模型作为所述实体抽取模型。
6.根据权利要求5所述的方法,其中,所述标注样本包括:样本语句中的实体名称,以及对所述实体名称的标注;
所述对所述标注样本进行数据增强,得到增强后的标注样本包括:
将所述样本语句中的实体名称采用同义词替换,得到新的实体名称;
对所述新的实体名称进行与所述样本语句中相同的标注,得到新的样本语句;
将所述样本语句和所述新的样本语句组合在一起,得到增强后的标注样本。
7.根据权利要求1-6之一所述的方法,其中,所述基于预设的触发词,对所述文本数据进行语句筛选,得到至少一个候选语句,包括:
基于预设的触发词,构建前缀树;
将所述文本数据与所述前缀树中的子树进行匹配,得到包括所述触发词的至少一个候选语句。
8.一种数据处理装置,所述装置包括:
接收单元,被配置成接收文本数据;
筛选单元,被配置成基于预设的触发词,对所述文本数据进行语句筛选,得到至少一个候选语句;
提取单元,被配置成对所述至少一个候选语句进行实体提取,得到候选实体;
去除单元,被配置成去除所述至少一个候选语句中所有无所述候选实体的候选语句,得到有效语句;
触发单元,被配置成基于所述有效语句和所述候选实体,得到被触发语句;所述触发单元包括:
确定模块,被配置成在所述有效语句中确定与所述候选实体对应的候选语句;
构造模块,被配置成基于所述候选实体与所述候选实体对应的候选语句,构造实体语句对;
触发模块,被配置成将所述实体语句对输入已训练完成的被触发语句抽取模型,得到所述被触发语句抽取模型输出的被触发语句。
9.根据权利要求8所述的装置,其中,所述被触发语句抽取模型采用以下单元训练得到:
第一获取单元,被配置成获取标注样本;
第一增强单元,被配置成对所述标注样本进行数据增强,得到增强后的标注样本;
第一构建单元,被配置成采用双向长短期记忆网络和条件随机场BiLSTM-CRF模型结构构建语句抽取模型;
第一训练单元,被配置成采用所述增强后的标注样本对所述语句抽取模型进行训练;
第一抽取单元,被配置成响应于所述语句抽取模型满足训练完成条件,则将所述语句抽取模型作为所述被触发语句抽取模型。
10.根据权利要求9所述的装置,其中,所述标注样本包括:样本语句中的被触发语句的起止词,以及对所述起止词的标注;
所述第一增强单元包括:
第一替换模块,被配置成将所述样本语句中的起止词采用同义词替换,得到新的起止词;
第一标注模块,被配置成对所述新的起止词进行与所述样本语句中相同的标注,得到新的样本语句;
第一组合模块,被配置成将所述样本语句和所述新的样本语句组合在一起,得到增强后的标注样本。
11.根据权利要求8所述的装置,其中,所述提取单元进一步被配置成,将所述至少一个候选语句依次输入已训练完成的实体抽取模型,得到所述实体抽取模型输出的候选实体。
12.根据权利要求11所述的装置,其中,上述实体抽取模型采用以下单元训练得到:
第二获取单元,被配置成获取标注样本;
第二增强单元,被配置成对所述标注样本进行数据增强,得到增强后的标注样本;
第二构建单元,被配置成采用双向长短期记忆网络和条件随机场BiLSTM-CRF模型结构构建名词抽取模型;
第二训练单元,被配置成采用所述增强后的标注样本对所述名词抽取模型进行训练;
第二抽取单元,被配置成响应于所述名词抽取模型满足训练完成条件,则将所述名词抽取模型作为所述实体抽取模型。
13.根据权利要求12所述的装置,其中,所述标注样本包括:样本语句中的实体名称,以及对所述实体名称的标注;
所述第二增强单元包括:
第二替换模块,被配置成将所述样本语句中的实体名称采用同义词替换,得到新的实体名称;
第二标注模块,被配置成对所述新的实体名称进行与所述样本语句中相同的标注,得到新的样本语句;
第二组合模块,被配置成将所述样本语句和所述新的样本语句组合在一起,得到增强后的标注样本。
14.根据权利要求8-13之一所述的装置,其中,所述筛选单元包括:
前缀模块,被配置成基于预设的触发词,构建前缀树;
匹配模块,被配置成将所述文本数据与所述前缀树中的子树进行匹配,得到包括所述触发词的至少一个候选语句。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202110587370.XA 2021-05-27 2021-05-27 数据处理方法和装置、电子设备、计算机可读介质 Active CN113326691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110587370.XA CN113326691B (zh) 2021-05-27 2021-05-27 数据处理方法和装置、电子设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110587370.XA CN113326691B (zh) 2021-05-27 2021-05-27 数据处理方法和装置、电子设备、计算机可读介质

Publications (2)

Publication Number Publication Date
CN113326691A CN113326691A (zh) 2021-08-31
CN113326691B true CN113326691B (zh) 2023-07-28

Family

ID=77421842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110587370.XA Active CN113326691B (zh) 2021-05-27 2021-05-27 数据处理方法和装置、电子设备、计算机可读介质

Country Status (1)

Country Link
CN (1) CN113326691B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291550A (zh) * 2020-01-17 2020-06-16 北方工业大学 一种中文实体提取方法及装置
CN111522919A (zh) * 2020-05-21 2020-08-11 上海明略人工智能(集团)有限公司 一种文本处理方法、电子设备和存储介质
CN112328762A (zh) * 2020-11-04 2021-02-05 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270084B2 (en) * 2018-10-12 2022-03-08 Johnson Controls Tyco IP Holdings LLP Systems and methods for using trigger words to generate human-like responses in virtual assistants

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291550A (zh) * 2020-01-17 2020-06-16 北方工业大学 一种中文实体提取方法及装置
CN111522919A (zh) * 2020-05-21 2020-08-11 上海明略人工智能(集团)有限公司 一种文本处理方法、电子设备和存储介质
CN112328762A (zh) * 2020-11-04 2021-02-05 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于图的新闻事件主题句抽取方法;王雍凯;毛存礼;余正涛;郭剑毅;洪旭东;罗林;;南京理工大学学报(04);全文 *

Also Published As

Publication number Publication date
CN113326691A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
US11544459B2 (en) Method and apparatus for determining feature words and server
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
KR20180078318A (ko) 선행사의 결정방법 및 장치
US20220318275A1 (en) Search method, electronic device and storage medium
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN113408273B (zh) 文本实体识别模型的训练与文本实体识别方法、装置
CN112948573A (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN113326691B (zh) 数据处理方法和装置、电子设备、计算机可读介质
CN114818736B (zh) 文本处理方法、用于短文本的链指方法、装置及存储介质
US20230052623A1 (en) Word mining method and apparatus, electronic device and readable storage medium
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN103092838A (zh) 一种获取英文词的方法及装置
CN113553833B (zh) 文本纠错的方法、装置及电子设备
CN110473551B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN114492409B (zh) 文件内容的评价方法、装置、电子设备及程序产品
CN114662469B (zh) 情感分析方法、装置、电子设备及存储介质
CN114186552B (zh) 文本分析方法、装置、设备及计算机存储介质
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN115129816A (zh) 问答匹配模型的训练方法、装置及电子设备
CN113850076A (zh) 主题抽取方法、装置、电子设备以及存储介质
CN114254177A (zh) 基于词义分布假设构造的语言处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant