CN110188203B - 文本聚合方法、装置、设备及存储介质 - Google Patents

文本聚合方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110188203B
CN110188203B CN201910499905.0A CN201910499905A CN110188203B CN 110188203 B CN110188203 B CN 110188203B CN 201910499905 A CN201910499905 A CN 201910499905A CN 110188203 B CN110188203 B CN 110188203B
Authority
CN
China
Prior art keywords
text
word
label
tag
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910499905.0A
Other languages
English (en)
Other versions
CN110188203A (zh
Inventor
曹宇慧
冯仕堃
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910499905.0A priority Critical patent/CN110188203B/zh
Publication of CN110188203A publication Critical patent/CN110188203A/zh
Application granted granted Critical
Publication of CN110188203B publication Critical patent/CN110188203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出一种文本聚合方法、装置、设备及存储介质,其中方法包括:抽取文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签中的至少一项;将包含相同标签的文本聚合;根据所述聚合的结果,确定对应各个所述标签的文本或文本的标识。本发明实施例能够将包含相同标签的文本聚合,以便于用户从大量文本中发掘出其他用户的观点。

Description

文本聚合方法、装置、设备及存储介质
技术领域
本发明涉及文本分类技术领域,尤其涉及一种文本聚合方法、装置、设备及存储介质。
背景技术
随着各类信息流的用户量日益增多,越来越多的用户在信息流中的初始内容下发表评论。其中,初始内容可以为新闻文本、视频文件、音频文件等多种类型。用户发表的评论可以称为文本。
目前,在主流信息流产品中,上述文本的组织方式一般为线性排列的方式,即:通常按照用户发表评论的时间顺序,将多条文本依次显示。
一些信息流用户在浏览上述文本时,其主要目的是参考其他用户的观点。在文本数量较大的情况下,上述线性排列方式不利于用户发掘其他用户的观点。
发明内容
本发明实施例提供一种文本聚合方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种文本聚合方法,包括:
抽取多个文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签中的至少一项;
利用所述多个文本中的相同标签进行聚合;
根据所述聚合的结果,确定各个所述标签对应的文本或文本的标识。
在一种实施方式中,还包括:
生成预先设置的标签对应的文本列表;所述文本列表包括以下至少一项:
包含所述预先设置的标签的文本;
包含所述预先设置的标签的文本的标识。
在一种实施方式中,抽取所述文本中的所述人物标签,包括:
对所述文本进行切词处理,得到所述文本的至少一个分词;
识别所述至少一个分词中内容为人物名字的第一分词;
确定与所述第一分词存在依存关系的形容词;
抽取所述第一分词及所述形容词组成的人物标签。
在一种实施方式中,抽取所述文本中的所述商品标签,包括:
对所述文本进行切词处理,得到所述文本的至少一个分词;
识别所述至少一个分词中内容为商品属性词的第二分词,并识别所述至少一个分词中内容为商品观点词的第三分词;所述商品属性词及商品观点词为预先设置的针对不同商品类别的商品属性词及商品观点词;
确定存在依存关系的所述第二分词和所述第三分词;
抽取所述第二分词及所述第三分词组成的商品标签。
在一种实施方式中,所述文本为针对初始内容的评论文本,所述初始内容包括标题;
抽取所述文本中的所述立场标签,包括:
对所述文本进行切词处理,得到所述文本的至少一个分词;
识别所述至少一个分词中内容为立场词的第四分词,并识别所述至少一个分词中内容为所述标题的关键词的第五分词;
确定存在依存关系的所述第四分词和所述第五分词;
抽取所述第四分词及所述第五分词组成的立场标签。
在一种实施方式中,抽取所述文本中的所述通用标签,包括:
采用预先训练的序列标注模型,预测所述文本中每个字的标签属性,所述标签属性的可选取值包括标签起始值、标签接续值及非标签值;
抽取起始字及所述起始字之后的接续字组成的通用标签;其中,所述起始字为标签属性的预测值为标签起始值的字,所述接续字为标签属性的预测值为标签接续值的字。
第二方面,本发明实施例提供了一种文本聚合装置,包括:
抽取模块,用于抽取多个文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签中的至少一项;
聚合模块,用于利用所述多个文本中的相同标签进行聚合;
数据确定模块,用于根据所述聚合的结果,确定各个所述标签对应的文本或文本的标识。
在一种实施方式中,还包括:
列表生成模块,用于生成预先设置的标签对应的文本列表;所述文本列表包括以下至少一项:
包含所述预先设置的标签的文本;
包含所述预先设置的标签的文本的标识。
在一种实施方式中,所述抽取模块包括:
人物标签抽取子模块,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为人物名字的第一分词;确定与所述第一分词存在依存关系的形容词;抽取所述第一分词及所述形容词组成的人物标签。
在一种实施方式中,所述抽取模块包括:
商品标签抽取子模块,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为商品属性词的第二分词,并识别所述至少一个分词中内容为商品观点词的第三分词;所述商品属性词及商品观点词为预先设置的针对不同商品类别的商品属性词及商品观点词;确定存在依存关系的所述第二分词和所述第三分词;抽取所述第二分词及所述第三分词组成的商品标签。
在一种实施方式中,所述文本为针对初始内容的评论文本,所述初始内容包括标题;
所述抽取模块包括:
立场标签抽取子模块,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为立场词的第四分词,并识别所述至少一个分词中内容为所述标题的关键词的第五分词;确定存在依存关系的所述第四分词和所述第五分词;抽取所述第四分词及所述第五分词组成的立场标签。
在一种实施方式中,所述抽取模块包括:
通用标签抽取子模块,用于采用预先训练的序列标注模型,预测所述文本中每个字的标签属性,所述标签属性的可选取值包括标签起始值、标签接续值及非标签值;抽取起始字及所述起始字之后的接续字组成的通用标签;其中,所述起始字为标签属性的预测值为标签起始值的字,所述接续字为标签属性的预测值为标签接续值的字。
第三方面,本发明实施例提供了一种文本聚合设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述文本聚合方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储文本聚合设备所用的计算机软件指令,其包括用于执行上述文本聚合方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例抽取文本中的标签,并根据抽取到的标签对文本进行聚合操作,确定各个标签对应的文本或文本的标识。采用前述方式,能够将包含相同内容(即相同标签)的文本聚合,以便于用户从大量文本中发掘出其他用户的观点。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的一种文本聚合方法实现流程图一;
图2为本发明实施例的一种文本聚合方法实现流程图二;
图3为本发明实施例的一种文本聚合方法框架示意图;
图4为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的人物标签的实现方式示意图;
图5为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的商品标签的实现方式示意图;
图6为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的立场标签的实现方式示意图;
图7为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的通用标签的实现方式示意图;
图8为本发明实施例的一种文本聚合方法中,序列标注模型的框架结构示意图;
图9为本发明实施例的一种文本聚合装置的结构示意图一;
图10为本发明实施例的一种文本聚合装置的结构示意图二;
图11为本发明实施例的文本聚合设备结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例主要提供了文本聚合方法和装置,下面分别通过以下实施例进行技术方案的展开描述。
如图1为本发明实施例的一种文本聚合方法实现流程图一,包括:
S11:抽取多个文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签中的至少一项;
S12:利用所述多个文本中的相同标签进行聚合;
S13:根据所述聚合的结果,确定各个所述标签对应的文本或文本的标识。
在一种可能的实施方式中,上述步骤S11中,一个文本可以抽取出一个以上标签,也可能不包含任何标签。在步骤S12中,对于抽取出2个以上标签的文本,该文本将被聚合到不同的文本组中。例如,如果从文本A中抽取出标签1和标签2,则文本A将会同时被聚合到标签1对应的文本组、以及标签2对应的文本组中。
在一种可能的实施方式中,上述步骤S12中的“相同标签”的判断标准至少可以包括以下两种标准:
第一种,严格的标准:
当两个标签在字面上完全相同时,认为这两个标签是相同的标签。
第二种,宽松的标准:
当两个标签在字面不相同、但意思相同时,认为这两个标签是相同的标签。例如,一个立场标签的内容为“支持XX”,另一个立场标签的内容为“赞成XX”,则认为前述两个立场标签是相同的标签。
图2为本发明实施例的一种文本聚合方法实现流程图二,在图2中,上述步骤S13之后进一步包括:
S24:生成预先设置的标签对应的文本列表;所述文本列表包括以下至少一项:
包含所述预先设置的标签的文本;
包含所述预先设置的标签的文本的标识。
在一种可能的实施方式中,上述预先设置的标签可以指采用上述步骤S12和S13进行过文本聚合操作的标签。
由于一个文本中可能抽取出多个标签,因此一个文本或文本的标识可能存在于多个文本列表中。
图3为本发明实施例的一种文本聚合方法框架示意图。如图3所示,本发明实施例获取初始内容(例如单条新闻)下的所有评论文本,同步抽取所有评论文本中的人物标签、商品标签、立场标签及通用标签。之后,将包含相同标签的评论聚合起来,形成「标签——包含该标签的文本列表」格式的结果。最后,输出前述结果。
以下分别介绍上述四种标签的抽取方式。
图4为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的人物标签的实现方式示意图,包括:
S1141:对所述文本进行切词处理,得到所述文本的至少一个分词;
S1142:识别所述至少一个分词中内容为人物名字的第一分词;
S1143:确定与所述第一分词存在依存关系的形容词;
S1144:抽取所述第一分词及所述形容词组成的人物标签。
上述步骤S1141中,本发明实施例可以采用现有的切词工具,对文本进行切词处理。上述步骤S1142中,本发明实施例可以采用现有的人名识别工具,识别内容为人物名字的分词。
上述步骤S1143中,本发明实施例可以采用现有的依存句法分析工具,确定与第一分词存在依存关系的形容词。这样,步骤S1144中抽取的人物标签可以是【人物名字+形容词】的形式。
例如,一个评论文本为“XX真的不行,实践已证明,光从选人这项就差多了”。对于该评论文本,本发明实施例抽取的人物标签为【XX不行】。
图5为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的商品标签的实现方式示意图,包括:
S1151:对所述文本进行切词处理,得到所述文本的至少一个分词;
S1152:识别所述至少一个分词中内容为商品属性词的第二分词,并识别所述至少一个分词中内容为商品观点词的第三分词;所述商品属性词及商品观点词为预先设置的针对不同商品类别的商品属性词及商品观点词;
S1153:确定存在依存关系的所述第二分词和所述第三分词;
S1154:抽取所述第二分词及所述第三分词组成的商品标签。
上述步骤S1151中,本发明实施例可以采用现有的切词工具,对文本进行切词处理。上述步骤S1152中,本发明实施例预先针对不同的商品类别设置商品属性词及商品观点词。例如,针对手机这类商品,人工构建针对手机的商品属性词词典和商品观点词词典。其中,商品属性词词典中可以包括不同的手机品牌及型号,以及手机的各种性能,如“屏幕”、“运行速度”、“信号”等。商品观点词词典中可以包括对商品属性词的观点词,例如:“好用”、“快”、“强”等。在识别上述第二分词和第三分词时,可以采用字典匹配方式,识别与前述商品属性词词典和商品观点词词典匹配的分词。
上述步骤S1153中,本发明实施例可以采用现有的依存句法分析工具,确定存在依存关系的第二分词和第三分词。这样,步骤S1154中抽取的商品标签可以是【商品属性词(名词)+商品观点词(形容词)】的形式。
例如,一个评论文本为“XX手机非常好用,性价比极高”。对于该评论文本,本发明实施例抽取的商品标签为【XX手机好用】。
在一种可能的实施方式中,所述文本为针对初始内容的评论文本,所述初始内容包括标题。例如,前述初始内容为新闻文本,新闻文本包括标题及正文。本发明实施例可以利用初始内容中的标题,提取针对该初始内容的评论文本中的立场标签。如图6所示,图6为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的立场标签的实现方式示意图,包括:
S1161:对所述文本进行切词处理,得到所述文本的至少一个分词;
S1162:识别所述至少一个分词中内容为立场词的第四分词,并识别所述至少一个分词中内容为所述标题的关键词的第五分词;
S1163:确定存在依存关系的所述第四分词和所述第五分词;
S1164:抽取所述第四分词及所述第五分词组成的立场标签。
上述步骤S1161中,本发明实施例可以采用现有的切词工具,对文本进行切词处理。
上述步骤S1162中,立场词可以包括支持立场的动词和反对立场的动词,例如“支持”、“同意”、“反对”、“不赞成”等。本发明实施例可以人工构建包含支持立场的动词和反对立场的动词的立场词典。在识别上述第四分词时,采用字典匹配方式,识别与前述立场词典匹配的分词。另外,步骤S1162中的标题的关键词可以指标题中的核心名词。
上述步骤S1163中,本发明实施例可以采用现有的依存句法分析工具,确定存在依存关系的第四分词和第五分词。这样,步骤S1164中抽取的商品标签可以是【标题的关键词(名词)+立场词(动词)】的形式。
例如,一个评论文本为“这件事我支持XX”。对于该评论文本,本发明实施例抽取的立场标签为【支持XX】。
上述对人物标签、商品标签及立场标签的抽取过程中,第一个步骤均为对文本进行切词处理。容易理解的是,在实际的处理过程中,并不需要针对前述每种标签的抽取分别进行切词处理。因为每次切词处理的结果都是相同的,重复处理没有意义。本发明实施例只需要在进行标签抽取时进行一次切词处理,之后分别进行人物标签、商品标签及立场标签的抽取,从切词处理之后生成的所有分词中找到所需的分词。
图7为发明实施例的一种文本聚合方法中,步骤S11中抽取文本中的通用标签的实现方式示意图,包括:
S1171:采用预先训练的序列标注模型,预测所述文本中每个字的标签属性,所述标签属性的可选取值包括标签起始值、标签接续值及非标签值;
S1172:抽取起始字及所述起始字之后的接续字组成的通用标签;其中,所述起始字为标签属性的预测值为标签起始值的字,所述接续字为标签属性的预测值为标签接续值的字。
在一种可能的实施方式中,上述标签属性为BIO标签,所述BIO标签的可选取值包括:
标签起始值,可以用B表示;
标签接续值,可以用I表示;
非标签值,可以用O表示。
在上述步骤S1171中,本发明实施例可以将文本输入序列标注模型,由序列标注模型对文本中每个字的标签属性进行预测,输出每个字的标签属性的预测值。
例如,对于一个文本“这件事我支持组委会”。将该文本输入序列标注模型后,由序列标注模型输出该文本的每个字的标签属性的预测值,如下所示:
这_O
件_O
事_O
我_O
支_B
持_I
组_I
委_I
会_I
由上述内容可见,根据序列标注模型的预测结果,“支”字的标签属性为B,因此“支”为起始字;其后“持”、“组”、“委”、“会”字的标签属性为I,因此“持”、“组”、“委”、“会”均为接续字。将“支”及其后的“持”、“组”、“委”、“会”组成的序列“支持组委会”确定为通用标签。
需要说明的是,上述步骤S1172中所述的起始字之后的接续字是指:与该起始字之间没有非标签字的接续字;其中,非标签字是指标签属性的预测值为O的字。
在一种可能的实施方式中,上述抽取通用标签时采用的序列标注模型是在基于转换器的双向编码表示(BERT,Bidirectional Encoder Representation fromTransformers)模型的基础上构建的。图8为本发明实施例的一种文本聚合方法中,序列标注模型的框架结构示意图。如图8所示,输入层及转换器层1~转换器层12构成BERT模型。在转换器层12之上增加一个输出层,构成序列标注模型。本发明实施例可以先对BERT模型进行预训练,通过预训练过程初步确定BERT模型中各层的参数;之后进行整个序列标注模型的训练。
具体地,首先采用大规模中文语料对BERT模型进行预训练,BERT模型的输入内容为中文语料,输出内容为各个词对应的词向量。之后,采用人工标注的评论文本(人工标注评论文本中每个字对应的BIO标签)作为训练样本,训练基于预训练BERT的序列标注模型,确定图8中输出层的参数,同时对输入层及转换器层1~转换器层12的参数做微调。采用这种方式,本发明实施例可以利用预训练的BERT模型提供的大规模中文语料的迁移学习,采用人工标注的评论文本进行微调(fine-tune)训练,以便达到更好的通用标签抽取效果。
需要说明的是,上述第一分词、第二分词、......第五分词的命名仅为了描述方便,并不代表抽取标签的时间顺序、或者标签的重要程度等任何信息。
本发明实施例还提出一种文本聚合装置。参见图9,图9为本发明实施例的一种文本聚合装置的结构示意图一,包括:
抽取模块910,用于抽取多个文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签中的至少一项;
聚合模块920,用于利用所述多个文本中的相同标签进行聚合;
数据确定模块930,用于根据所述聚合的结果,确定各个所述标签对应的文本或文本的标识。
图10为本发明实施例的一种文本聚合装置的结构示意图二。如图10所示,文本聚合装置包括抽取模块910、聚合模块920、数据确定模块930及列表生成模块940。
其中,抽取模块910、聚合模块920、数据确定模块930与上述实施例中的相应模块功能相同,在此不再赘述。
上述列表生成模块940,用于生成预先设置的标签对应的文本列表;所述文本列表包括以下至少一项:
包含所述预先设置的标签的文本;
包含所述预先设置的标签的文本的标识。
在一种可能的实施方式中,上述抽取模块910包括人物标签抽取子模块911;
所述人物标签抽取子模块911,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为人物名字的第一分词;确定与所述第一分词存在依存关系的形容词;抽取所述第一分词及所述形容词组成的人物标签。
在一种可能的实施方式中,上述抽取模块910包括商品标签抽取子模块912;
所述商品标签抽取子模块912,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为商品属性词的第二分词,并识别所述至少一个分词中内容为商品观点词的第三分词;所述商品属性词及商品观点词为预先设置的针对不同商品类别的商品属性词及商品观点词;确定存在依存关系的所述第二分词和所述第三分词;抽取所述第二分词及所述第三分词组成的商品标签。
在一种可能的实施方式中,所述文本为针对初始内容的评论文本,所述初始内容包括标题;
上述抽取模块910包括立场标签抽取子模块913;
所述立场标签抽取子模块913,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为立场词的第四分词,并识别所述至少一个分词中内容为所述标题的关键词的第五分词;确定存在依存关系的所述第四分词和所述第五分词;抽取所述第四分词及所述第五分词组成的立场标签。
需要说明的是,上述人物标签抽取子模块911、商品标签抽取子模块912及立场标签抽取子模块913可以采用同一个功能单元对文本进行切词处理,而不需要分别对文本进行重复的切词处理。
在一种可能的实施方式中,上述抽取模块910包括通用标签抽取子模块914;
所述通用标签抽取子模块914,用于采用预先训练的序列标注模型,预测所述文本中每个字的标签属性,所述标签属性的可选取值包括标签起始值、标签接续值及非标签值;抽取起始字及所述起始字之后的接续字组成的通用标签;其中,所述起始字为标签属性的预测值为标签起始值的字,所述接续字为标签属性的预测值为标签接续值的字。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本发明实施例还提出一种文本聚合设备,如图11为本发明实施例的文本聚合设备结构示意图,包括:
存储器11和处理器12,存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的文本聚合方法。所述存储器11和处理器12的数量可以为一个或多个。
所述设备还可以包括:
通信接口13,用于与外界设备进行通信,进行数据交换传输。
存储器11可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器11、处理器12和通信接口13独立实现,则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线,外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandardArchitecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器11、处理器12和通信接口13集成在一块芯片上,则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例提出的文本聚合方法和装置,抽取文本中的标签,并根据抽取到的标签对文本进行聚合操作,确定不同标签对应的文本或文本的标识。采用前述方式,能够将包含相同内容(即相同标签)的文本聚合,以便于用户从大量文本中发掘出其他用户的观点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种文本聚合方法,其特征在于,包括:
抽取多个文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签;其中,所述人物标签包括人物名字和形容词;所述商品标签包括商品属性词和商品观点词;
利用所述多个文本中的相同标签进行聚合;其中,所述相同标签包括:字面不相同、但意思相同的标签及字面上完全相同的标签;
根据所述聚合的结果,确定各个所述标签对应的文本或文本的标识;
其中,抽取所述文本中的所述通用标签,包括:
采用预先训练的序列标注模型,预测所述文本中每个字的标签属性,所述标签属性的可选取值包括标签起始值、标签接续值及非标签值;所述序列标注模型是基于标注后的文本作为训练样本训练基于转换器的双向编码表示模型,并根据输出参数对所述基于转换器的双向编码表示模型中的输入层和转换器层的参数做微调得到的;
抽取起始字及所述起始字之后的接续字组成的通用标签;其中,所述起始字为标签属性的预测值为标签起始值的字,所述接续字为标签属性的预测值为标签接续值的字。
2.根据权利要求1所述的方法,其特征在于,还包括:
生成预先设置的标签对应的文本列表;所述文本列表包括以下至少一项:
包含所述预先设置的标签的文本;
包含所述预先设置的标签的文本的标识。
3.根据权利要求1或2所述的方法,其特征在于,抽取所述文本中的所述人物标签,包括:
对所述文本进行切词处理,得到所述文本的至少一个分词;
识别所述至少一个分词中内容为人物名字的第一分词;
确定与所述第一分词存在依存关系的形容词;
抽取所述第一分词及所述形容词组成的人物标签。
4.根据权利要求1或2所述的方法,其特征在于,抽取所述文本中的所述商品标签,包括:
对所述文本进行切词处理,得到所述文本的至少一个分词;
识别所述至少一个分词中内容为商品属性词的第二分词,并识别所述至少一个分词中内容为商品观点词的第三分词;所述商品属性词及商品观点词为预先设置的针对不同商品类别的商品属性词及商品观点词;
确定存在依存关系的所述第二分词和所述第三分词;
抽取所述第二分词及所述第三分词组成的商品标签。
5.根据权利要求1或2所述的方法,其特征在于,所述文本为针对初始内容的评论文本,所述初始内容包括标题;
抽取所述文本中的所述立场标签,包括:
对所述文本进行切词处理,得到所述文本的至少一个分词;
识别所述至少一个分词中内容为立场词的第四分词,并识别所述至少一个分词中内容为所述标题的关键词的第五分词;
确定存在依存关系的所述第四分词和所述第五分词;
抽取所述第四分词及所述第五分词组成的立场标签。
6.一种文本聚合装置,其特征在于,包括:
抽取模块,用于抽取多个文本中的标签,所述标签包括人物标签、商品标签、立场标签及通用标签;其中,所述人物标签包括人物名字和形容词;所述商品标签包括商品属性词和商品观点词;
聚合模块,用于利用所述多个文本中的相同标签进行聚合;其中,所述相同标签包括:字面不相同、但意思相同的标签及字面上完全相同的标签;
数据确定模块,用于根据所述聚合的结果,确定各个所述标签对应的文本或文本的标识;
所述抽取模块包括:
通用标签抽取子模块,用于采用预先训练的序列标注模型,预测所述文本中每个字的标签属性,所述标签属性的可选取值包括标签起始值、标签接续值及非标签值;所述序列标注模型是基于标注后的文本作为训练样本训练基于转换器的双向编码表示模型,并根据输出参数对所述基于转换器的双向编码表示模型中的输入层和转换器层的参数做微调得到的;抽取起始字及所述起始字之后的接续字组成的通用标签;其中,所述起始字为标签属性的预测值为标签起始值的字,所述接续字为标签属性的预测值为标签接续值的字。
7.根据权利要求6所述的装置,其特征在于,还包括:
列表生成模块,用于生成预先设置的标签对应的文本列表;所述文本列表包括以下至少一项:
包含所述预先设置的标签的文本;
包含所述预先设置的标签的文本的标识。
8.根据权利要求6或7所述的装置,其特征在于,所述抽取模块包括:
人物标签抽取子模块,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为人物名字的第一分词;确定与所述第一分词存在依存关系的形容词;抽取所述第一分词及所述形容词组成的人物标签。
9.根据权利要求6或7所述的装置,其特征在于,所述抽取模块包括:
商品标签抽取子模块,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为商品属性词的第二分词,并识别所述至少一个分词中内容为商品观点词的第三分词;所述商品属性词及商品观点词为预先设置的针对不同商品类别的商品属性词及商品观点词;确定存在依存关系的所述第二分词和所述第三分词;抽取所述第二分词及所述第三分词组成的商品标签。
10.根据权利要求6或7所述的装置,其特征在于,所述文本为针对初始内容的评论文本,所述初始内容包括标题;
所述抽取模块包括:
立场标签抽取子模块,用于对所述文本进行切词处理,得到所述文本的至少一个分词;识别所述至少一个分词中内容为立场词的第四分词,并识别所述至少一个分词中内容为所述标题的关键词的第五分词;确定存在依存关系的所述第四分词和所述第五分词;抽取所述第四分词及所述第五分词组成的立场标签。
11.一种文本聚合设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201910499905.0A 2019-06-10 2019-06-10 文本聚合方法、装置、设备及存储介质 Active CN110188203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910499905.0A CN110188203B (zh) 2019-06-10 2019-06-10 文本聚合方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910499905.0A CN110188203B (zh) 2019-06-10 2019-06-10 文本聚合方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110188203A CN110188203A (zh) 2019-08-30
CN110188203B true CN110188203B (zh) 2022-08-26

Family

ID=67721262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910499905.0A Active CN110188203B (zh) 2019-06-10 2019-06-10 文本聚合方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110188203B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN109815336A (zh) * 2019-01-28 2019-05-28 无码科技(杭州)有限公司 一种文本聚合方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583648B1 (en) * 2011-09-30 2013-11-12 Google Inc. Merging semantically similar clusters based on cluster labels
US9672279B1 (en) * 2014-09-30 2017-06-06 EMC IP Holding Company LLC Cluster labeling system for documents comprising unstructured text data
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN105045818B (zh) * 2015-06-26 2017-07-18 腾讯科技(深圳)有限公司 一种图片的推荐方法、装置和系统
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
CN107436922B (zh) * 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
CN109582948B (zh) * 2017-09-29 2022-11-22 北京国双科技有限公司 评价观点抽取的方法及装置
CN108647194B (zh) * 2018-04-28 2022-04-19 北京神州泰岳软件股份有限公司 信息抽取方法及装置
CN109241529B (zh) * 2018-08-29 2023-05-02 中国联合网络通信集团有限公司 观点标签的确定方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN109815336A (zh) * 2019-01-28 2019-05-28 无码科技(杭州)有限公司 一种文本聚合方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEQUOIA: a middleware supporting policy-based access control for search and aggregation in data-driven applications;Bogaerts;《IEEE Transactions on Dependable & Secure Computing》;20181231;全文 *
基于社会标签的文本聚类研究;何文静等;《现代图书情报技术》;20130825;全文 *

Also Published As

Publication number Publication date
CN110188203A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN107436922B (zh) 文本标签生成方法和装置
US8380492B2 (en) System and method for text cleaning by classifying sentences using numerically represented features
CN109726274B (zh) 问题生成方法、装置及存储介质
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111414757B (zh) 一种文本识别方法及装置
CN112541359B (zh) 文档内容识别方法、装置、电子设备及介质
CN112541125B (zh) 序列标注模型训练方法、装置及电子设备
CN114118065A (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN110188203B (zh) 文本聚合方法、装置、设备及存储介质
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN111563140B (zh) 一种意图识别方法及装置
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN110717316A (zh) 字幕对话流的主题分割方法及装置
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN113822013A (zh) 用于文本数据的标注方法、装置、计算机设备及存储介质
CN112541073A (zh) 一种文本摘要生成方法、装置、电子设备及存储介质
CN110610001A (zh) 短文本完整性识别方法、装置、存储介质及计算机设备
CN110929513A (zh) 基于文本的标签体系构建方法及装置
CN113705206B (zh) 情感预测模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant