CN109933784A - 一种文本识别方法和装置 - Google Patents
一种文本识别方法和装置 Download PDFInfo
- Publication number
- CN109933784A CN109933784A CN201910099550.6A CN201910099550A CN109933784A CN 109933784 A CN109933784 A CN 109933784A CN 201910099550 A CN201910099550 A CN 201910099550A CN 109933784 A CN109933784 A CN 109933784A
- Authority
- CN
- China
- Prior art keywords
- text
- input
- model
- training
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本识别方法和装置,能够识别文本中指定对象的评价值。所述方法包括:将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指定对象的评价值。采用本发明实施例,相较于传统有监督模型,不需要使用大量的标注数据来确保最终的模型效果,能够节省人力,实现对文本中不同实体的情感进行分析。
Description
技术领域
本发明涉及计算机技术,尤指一种文本识别方法和装置。
背景技术
随着计算机软件、硬件、以及互联网行业的发展,大数据已经成为生活中 密不可分的一部分,然而针对非结构化的数据,例如:社会网络舆情,产品 意见反馈,酒店餐饮评论等,各行各业的大量非结构化文本的处理都需要人 工参与阅读分析总结,最终来确定产品或服务或其他方面需要提高的部分, 非常耗时耗力。
在传统的情感分类方法中,我们只能大致通过文本整体的极性(积极的或 者消极的),来分析对象的特征(如:产品的好坏程度),但是细粒度的区 分对象的特征的情感是有所欠缺的。
再如,用户反馈:该产品操作非常简单,用户界面设计简洁,但是软件的 加载速度耗时比较长。上述反馈信息使用传统的分类方法,仅仅区分区为积 极的或者消极,并不能很好的进行情感分类。除了关注整体的情感外,更应 该关注细节(指定对象)上的情感分类,例如,操作的分类(简单or复杂), 加载速度的分类(快or慢),用户界面的分类(简洁or混乱)等。
可见,传统的情感分类只能从句子的整体来区分情感的导向情况,积极或 者消极或着多层级的情感分类,但难以针对单一句子中不同实体(指定对象) 的情感进行分析。
发明内容
为了解决上述技术问题,本发明提供了一种文本识别方法和装置,能够 高效识别文本中不同实体的评价值。
为了达到本发明目的,本发明提供了一种文本识别方法,所述方法包括:
将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每 条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的 模型进行训练;
使用训练好的模型,识别输入的文本对于指定对象的评价值。
一种示例性的实施例中,所述对预生成的模型进行训练前还包括:根据 搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全 连接层,作为所述预生成的模型。
一种示例性的实施例中,所述根据搜集的文本进行无监督的模型训练, 包括:
对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的 模型。
一种示例性的实施例中,所述将每个训练用的文本与不同的指定对象的 组合各作为一条输入包括:
对所述每个训练用的文本进行如下操作:
将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指 定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字 嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并 对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中 不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置 信息;
对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的指定对象获取一条输入。
一种示例性的实施例中,所述使用训练好的模型,识别输入的文本对于 指定对象的评价值,包括:
当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;
当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结 果的表格;
其中,所述分类结果包括积极、未提及和消极。
为了达到本发明目的,本发明还提供了一种文本识别装置,包括:存储 器和处理器;所述存储器,用于保存用于性能测试的程序;
所述处理器,用于读取执行所述用于性能测试的程序,执行如下操作:
将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每 条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的 模型进行训练;
使用训练好的模型,识别输入的文本对于指定对象的评价值。
一种示例性的实施例中,所述处理器对预生成的模型进行训练前,还执 行如下操作:根据搜集的文本进行无监督的模型训练,在所述无监督的模型 的输出层后加上全连接层,作为所述预生成的模型。
一种示例性的实施例中,所述根据搜集的文本进行无监督的模型训练, 包括:
对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的 模型。
一种示例性的实施例中,所述处理器读取执行所述用于性能测试的程序, 还执行如下操作:
在所述将每个训练用的文本以及不同的指定对象分别作为输入之前,对 所述每个训练用的文本进行如下操作:
将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指 定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字 嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并 对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中 不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置 信息;
对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的指定对象获取一条输入。
一种示例性的实施例中,所述处理器使用训练好的模型,识别输入的文 本对于指定对象的评价值,包括:
当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;
当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结 果的表格;
其中,所述分类结果包括积极、未提及和消极。
与现有技术相比,本发明包括将每个训练用的文本与不同的指定对象的 组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的 评价值作为标签,对预生成的模型进行训练;使用训练好的模型,识别输入的 文本对于指定对象的评价值。相较于传统有监督模型,对无监督模型进行训 练,得到有监督模型,不需要使用大量的标注数据来确保最终的模型效果, 能够节省人力,实现对文本中不同实体的情感进行分析。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说 明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优 点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部 分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明 技术方案的限制。
图1为本发明实施例一的文本识别方法的流程图;
图2为本发明实施例二的文本识别方法文本的输入输出结构定义示意图;
图3为本发明实施例三的文本识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图 对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申 请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机 系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下, 可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
本实施例提供了一种文本识别方法,如图1所示,该方法包括S11-S12:
S11、将每个训练用的文本与不同的指定对象的组合各作为一条输入,对 于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生 成的模型进行训练;
S12、使用训练好的模型,识别输入的文本对于指定对象的评价值。
本发明实施例中,对预生成的模型进行训练,识别输入的文本对于指定 对象的评价值,其中,不同的指定对象可以对应不同实体;相较于传统有监 督模型,不需要使用大量的标注数据来确保最终的模型效果,还能够节省人 力,实现对文本中不同实体的情感进行分析。
一种示例性的实施例中,搜集的文本是指特定领域搜集的,如餐饮服务。 当特定领域为餐饮服务时,指定对象可以为环境、味道和服务态度等实体。 标签是对于指定对象的评价值;例如,对于文本1“这儿的环境很好”,指 定对象环境、味道和服务态度和文本1可以各组成一个输入;当其中一个指 定对象和文本1作为输入时,标签是对于该指定对象的评价值,如当“这儿 的环境很好”和“环境”作为输入时,标签为“好”,对应的评价值为“1”。评价值可以是“-1、0、1”;标签(评价值)可以为可以为好、未提及和不好, 还可以为“-1、0、1”,还可以为字母或单词等。
一种示例性的实施例中,所述对预生成的模型进行训练前还包括:根据 搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全 连接层,作为所述预生成的模型。搜集的文本是不分领域搜集的。
一种示例性的实施例中,预生成的模型指在无监督训练后得到无监督的 模型基础上加上全连接层后生成的有监督模型,指定对象即指定的实体词, 例如,用于评论餐饮行业的实体词包括:环境、服务态度、味道等。
一种示例性的实施例中,所述根据搜集的文本进行无监督的模型训练, 包括:
对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的 模型。
一种示例性的实施例中,所述将每个训练用的文本与不同的指定对象的 组合各作为一条输入,包括:
对所述每个训练用的文本进行如下操作:
将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指 定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字 嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并 对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中 不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置 信息;
一种示例性的实施例中,比如文本1和指定对象a、b、c分别组合,并用 预定字符连接,得到的组合结果为:
<CLS>文本1<SEP>a<SEP>
<CLS>文本1<SEP>b<SEP>
<CLS>文本1<SEP>c<SEP>
其中,<CLS>用于标识文本起始;第一个<SEP>用于标识之前数据为文本、 之后数据为指定对象;第二个<SEP>用于标识指定对象结束。
一种示例性的实施例中,字嵌入是指将输入句子拆分成字级别,并对句 子中每一个字都做字嵌入(word embedding);段落嵌入是指使用不同字母标 识输入中不同的句子或字段,从而区分输入是单句还是一对或一组句子或字 段,比如用A和B分别标识输入中的不同句子或字段;例如对于文本和指定 对象的组合,可以用A标识文本中的每一个字符,用B标识指定对象中的每 一个字符;位置嵌入是指为输入中的每一个字符(包括文本、文本和指定对 象之间的分隔符、指定对象等)标注具体位置信息,每一个字符对应于一个 位置,比如但不限于用序号进行标注。
对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的指定对象获取一条输入。
一种示例性的实施例中,所述使用训练好的模型,识别输入的文本对于 指定对象的评价值,包括:
当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;
当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结 果的表格;
其中,所述分类结果包括积极、未提及和消极。
本发明实施例中,将每个训练用的文本与不同的指定对象的组合各作为 一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为 标签,对预生成的模型进行训练;使用训练好的模型,识别输入的文本对于指 定对象的评价值。相较于传统有监督模型,不需要使用大量的标注数据来确 保最终的模型效果,能够节省人力,实现对文本中不同实体的情感进行分析。
实施例二
一种基于实体的情感分类方法中有以下缺点:
(1)使用句法规则和实体及情感之间的关联来积累实体词和情感词,但 非常依赖于手动定义的规则,并且严格遵循特定的词性规则。
(2)将实体词抽取于实体情感分类分为两个不同的任务,即在判断情感 时并不考虑针对的实体的信息,这样会导致分类不正确。因为同一个形容词 在对不同实体或在不同领域的不同实体使用时,表达的情感是不一样的。所 以,需要考虑实体词和情感词之间的信息交互。
(3)基于深度学习的基于实体的情感分类中,大多使用RNN模型(LSTM, GRU etc)或者CNN模型作为模型的基础,前者在训练速度上较后者有着很 大的劣势,后者在序列信息上较前者有着很大的劣势,但两种方式都需要大 量的有监督训练文本。
可见,上述基于实体的情感分类方法需要大量人工去进行结果标注,比 较繁琐,效率较低。如何高效的挖掘舆情中的关键信息,提高监控社会态势、 提升产品质量等任务的自动化程度,成为了处理非结构化数据过程中必不可 少的任务。
本实施例文本识别方法包括以下步骤:
1、文本(语料信息)搜集
所述文本搜集包括两部分,一是搜集无监督预训练神经网络语言模型(即 无监督的模型)使用的文本;二是使用上述构建的模型,进行特定领域特定 任务的有监督训练时(即有监督模型),搜集有监督训练模型使用的文本。
(1)无监督预训练文本的搜集
通过搜集不限定领域的文本,构建预训练文本集Dpretrain;
其中,所述领域包括以下一种或多种:服装、餐饮、酒店等;文本包括: 餐馆评论、售后评论、产品反馈、微博舆情等。
(2)有监督训练文本的搜集与文本构建
1)搜集针对特定领域特定任务的文本,构建领域训练集Ddomain;
文本包括:餐馆评论、售后评论、产品反馈、微博舆情等;对特定领域 是指预进行评价的领域。
2)针对特定领域任务,确定需要进行分析的对象数目与名称,初始化文 本标签Ldomain;
3)对数据集中每一条文本,标注面向指定对象的训练标签,具体标签类 型可根据需求设定,例如表一所示:
表一
Index | Source text | Aspect1 | Aspect2 | Aspect3 | Aspect4 | Aspect5 | ... |
1 | Text 1 | 1 | -1 | 1 | 0 | 0 | … |
2 | Text 2 | 0 | 0 | 0 | -1 | 1 | … |
… | … | … | … | … | … | … | … |
其中,Aspect1~Aspect5表示想要关注的实体(指定对象),Source text列 表下的Text为不同的文本,标签类型可以使用数字表示,如:“1、-1、0”, 其中,“0”表示未提及,“1”表示Positive,“-1”表示Negative;
4)构建监督文本数据
例如,表二所示的为有监督文本数据:
表二
表二中的index为序号;input为输入,target为不同的文本的标签,
输入对应的框架为:<CLS>+文本+<SEP>+指定对象+<SEP>;
其中,Text为不同的文本;Aspect为指定对象;<CLS>用于标识文本起 始;第一个<SEP>用于标识之前数据为文本、之后数据为指定对象;第二个 <SEP>用于标识指定对象结束。
2、构建无监督预训练神经网络语言模型
(1)模型参数设置
所述模型参数设置是指对神经网络语言模型的常规设置,如隐藏层大小、 层数等。
(2)屏蔽词预训练(MLM-Masked Language Model)
屏蔽词预训练即随机的掩盖一定比例的输入token,然后只预测这些被 掩盖的token。例如:
Input:<CLS>这家餐厅的<MASK1>境非常优雅,味道也很<MASK2>错。
Label:<MASK1>=环,<MASK2>=不
当掩盖了输入中的“环”和“不”时,所述无监督预训练神经网络语言 模型能够预测出被掩盖的词。
(3)句子关系预训练(NSP-Next Sentence Prediction)
输入两个有前后关系(1=isNext)或无前后关系(0=notNext)的句子, 并用<SEP>分隔,对他们进行前后关系预测。
Input Sentence A:这家餐厅的环境非常优雅,味道也很不错。
Input Sentence B:唯独服务员的态度有些爱答不理。
Input:<CLS>这家餐厅的环境非常优雅,味道也很不错。<SEP>唯独服 务员的态度有些爱答不理。<SEP>
(4)得到预训练好的语言模型LM(Language Model)。
3、针对特定任务的模型改造与有监督训练
(1)迁移学习
迁移学习前需加载步骤2中预训练好的模型结构与参数。
(2)模型结构改造
1)针对特定任务在预训练好的模型基础上进行结构改造,在预训练模型 的输出层之后,增加一层全连接层(输出维度为情感分类维度(如上述标签 类型包括“1、-1、0”三个维度));
2)Softmax结果输出(100表示Positive,010表示未提及,001表示 Negative);
(3)输入输出文本结构定义
输入输出文本结构定义如图2所示,其中:
1)输入:该任务输入分为两部分,第一部分为评论文本信息,第二部分 为关注的对象信息(指定对象),并用<SEP>分隔。
i.Token Embedding(字嵌入):将输入句子拆分成字级别,并对句子中 每一个字都做字嵌入(word embedding);
ii.Segment Embedding(段落嵌入):使用不同字母标识输入中不同的句 子或字段,从而区分输入是单句还是一对或一组句子或字段,比如用A和B 分别标识输入中的不同句子或字段;
iii.Position Embedding(位置嵌入):输入中的每一个字符(包括文本、 文本和指定对象之间的分隔符、指定对象等)标注具体位置信息,比如但不 限于用序号进行标注;
iv.Model input=字嵌入+段落嵌入+位置嵌入;将步骤i~iii进行字嵌入、 段落嵌入和位置嵌入后的数据进行矢量求和,可以得到该文本对于某个指定 对象的一条输入。
其中,步骤i~iii的先后顺序不做具体限定。
例如,文本为“这家店也就交通非诚方便,人均消费比较高”,指定对 象为“餐馆环境”;用预定字符连接获得:<CLS>这家店也就交通非诚方便, 人均消费比较高<SEP>餐馆环境<SEP>;
进行字嵌入,“<CLS>这家店也就交通非诚方便,人均消费比较高<SEP> 餐馆环境<SEP>”中的每个字均可用向量表示,每个字与与之对应向量预先已 存储,可以通过查询获得,即加上“<CLS>”和两个“<SEP>”后共计25个 向量;
进行段落嵌入获得:AAAAAAAAAAAAAAAAAAAABBBB;使用字母 A表示文本中的一个字,试用字母B表示指定对象的一个字;
进行位置嵌入后获得:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 22 23 24 25;位置中的1-25与“<CLS>这家店也就交通非诚方便,人均消费比 较高<SEP>餐馆环境<SEP>”一一对应;
字嵌入、段落嵌入和位置嵌入矢量求和:字嵌入、段落嵌入和位置嵌入 后分别为25个向量;将字嵌入、段落嵌入和位置嵌入后的各25个向量进行 矢量求和获得输入:E1 E2E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14 E15 E16 E17 E18 E19 E20 E21 E22 E23E24 E25。
2)结果输出:该评论在指定对象上的情感分类结果(Positive or未提及 orNegative)
例如,文本输入为“这家店也就交通非诚方便,人均消费比较高”,指 定对象为“餐馆环境”的结果输出:为010,因为该文本中未提及指定对象“餐 馆环境”,因此,此文本的结果输出为010(三位分别表示Positive、未提及、 Negative,Positive为0,未提及为1,Negative为0)。
(4)有监督模型训练
有监督模型训练是指将加载步骤(3)中的已定义好的输入输出文,对步 骤2中的无监督预训练神经网络语言模型进行训练。
1)训练集验证集测试集划分;
2)Freeze预训练语言模型的参数,只训练网络尾端的全连接层;
3)Unfreeze预训练语言模型的参数,并针对该任务进行微调(fine-tunning);
4)保存validation accuracy最高的模型以及其参数等信息。
4、使用训练好的模型,对下游相关任务进行预测
使用步骤3中有监督训练后的模型对下游相关任务进行预测,包括:
(1)关注点问答;
(2)自动化细粒度情感表格生成。
应用示例一
本实施例对上述实施例方法进行具体描述,以餐馆评论为例,包括以下 步骤:
1、文本(语料信息)搜集
(1)无监督预训练语料的搜集
文本语料搜集(餐馆评论、售后评论、产品反馈、微博舆情etc)。
(2)有监督语料的搜集与文本构建
1)搜集该特定任务的语料信息(餐馆评论);
2)针对该任务,设计需要分类的对象信息,例如:(餐馆环境、服务员 态度、地理位置、菜品、价格等);
3)样例数据:
Text1:这家餐厅的环境非常优雅,味道也很不错。唯独服务员的态度有 些爱答不理。
Text2:这家店也就交通非常方便,人均消费比较高。
4)有监督数据标注,如表3所示,其中,0表示未提及,1表示情感Positive, -1表示情感Negative;
表三
表三为根据输入的文本和关注的对象进行标注后的文本。
5)文本生成
表四
index | input | target |
1 | <CLS>TEXT1<SEP>餐馆环境<SEP> | 1 |
2 | <CLS>TEXT1<SEP>服务员<SEP> | -1 |
3 | <CLS>TEXT1<SEP>菜品<SEP> | 1 |
4 | <CLS>TEXT1<SEP>价格<SEP> | 0 |
5 | <CLS>TEXT1<SEP>地理位置<SEP> | 0 |
6 | <CLS>TEXT2<SEP>餐馆环境<SEP> | 0 |
7 | <CLS>TEXT2<SEP>服务员<SEP> | 0 |
8 | <CLS>TEXT2<SEP>菜品<SEP> | 0 |
9 | <CLS>TEXT2<SEP>价格<SEP> | -1 |
10 | <CLS>TEXT2<SEP>地理位置<SEP> | 1 |
… | … | … |
Input为对每条文本进行字嵌入后的结果,target为不同指定对象的评价 值。
2、无监督预训练神经网络语言模型
3、针对该任务的神经网络模型结构改造与有监督训练
(1)模型改造后结构
(2)输入输出文本结构定义
(3)有监督模型训练
4、最终可以根据上述训练好的模型,可适用于多种不同的下游相关任务, 例如:
(1)关注点问答
以下文本输入1、文本输入2、文本输入3中的“评论”为训练用的文本, “关注点”为指定对象时输出的评价值。
文本输入1
评论:这家店员工非常亲切,而且味道很可口,就是略贵,关键是距离 单位只有5分钟路程,非常方便。
关注点:地理位置
输出1:Positive(1 0 0);
文本输入2
评论:这家店员工非常亲切,而且味道很可口,就是略贵,关键是距离 单位只有5分钟路程,非常方便。
关注点:价钱
输出2:Negative(0 0 1);
文本输入3
评论:这家店员工非常亲切,而且味道很可口,就是略贵,关键是距离 单位只有5分钟路程,非常方便。
关注点:可容纳人数
输出3:未提及(0 0 1);
(2)自动化细粒度情感表格生成
表五
实施例三
本实施例提供了一种文本识别装置,上述方法实施例中描述也适用于本 实施例中,如图3所示,该装置包括:存储器31和处理器32;
所述存储器31,用于保存用于性能测试的程序;
所述处理器32,用于读取执行所述用于性能测试的程序,执行如下操作:
将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每 条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的 模型进行训练;
使用训练好的模型,识别输入的文本对于指定对象的评价值。
一种示例性的实施例中,所述处理器32读取执行所述用于性能测试的程 序,还执行如下操作:根据搜集的文本进行无监督的模型训练,在所述无监 督的模型的输出层后加上全连接层,作为所述预生成的模型。
一种示例性的实施例中,所述根据搜集的文本进行无监督的模型训练, 包括:
对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的 模型。
一种示例性的实施例中,所述处理器32读取执行所述用于性能测试的程 序,还执行如下操作:
在所述将每个训练用的文本以及不同的指定对象分别作为输入之前,对 所述每个训练用的文本进行如下操作:将该训练用的文本和不同的指定对象 分别进行组合,组合时将文本和指定对象用预定字符连接;对于每种组合结 果分别进行嵌入,所述嵌入包括字嵌入、段落嵌入和位置嵌入;所述字嵌入 是指将输入句子拆分成字级别,并对句子中每一个字都做字嵌入;所述段落 嵌入是指使用不同字母标识输入中不同的句子或字段;所述位置嵌入是指为 输入中的每一个字符标注具体位置信息;
对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的指定对象获取一条输入。
一种示例性的实施例中,所述处理器32使用训练好的模型,识别输入的 文本对于指定对象的评价值,包括:
当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;
当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结 果的表格;
其中,所述分类结果包括积极、未提及和消极。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、 系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组 合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一 定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一 个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实 施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬 件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机 存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块 或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可 移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或 其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、 磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以 被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通 信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他 传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种文本识别方法,其特征在于,所述方法包括:
将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;
使用训练好的模型,识别输入的文本对于指定对象的评价值。
2.根据权利要求1所述的方法,其特征在于,所述对预生成的模型进行训练前还包括:根据搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全连接层,作为所述预生成的模型。
3.根据权利要求2所述的方法,其特征在于,所述根据搜集的文本进行无监督的模型训练,包括:
对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的模型。
4.根据权利要求1所述的方法,其特征在于,所述将每个训练用的文本与不同的指定对象的组合各作为一条输入包括:
对所述每个训练用的文本进行如下操作:
将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指定对象用预定字符连接;
对于每种组合结果分别进行嵌入,所述嵌入包括字嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置信息;
对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对象获取一条输入。
5.根据权利要求1所述的方法,其特征在于,所述使用训练好的模型,识别输入的文本对于指定对象的评价值,包括:
当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;
当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结果的表格;
其中,所述分类结果包括积极、未提及和消极。
6.一种文本识别装置,包括:存储器和处理器;其特征在于:
所述存储器,用于保存用于性能测试的程序;
所述处理器,用于读取执行所述用于性能测试的程序,执行如下操作:
将每个训练用的文本与不同的指定对象的组合各作为一条输入,对于每条输入,将该条输入中的文本对于指定对象的评价值作为标签,对预生成的模型进行训练;
使用训练好的模型,识别输入的文本对于指定对象的评价值。
7.根据权利要求6所述的装置,其特征在于,所述处理器对预生成的模型进行训练前,还执行如下操作:根据搜集的文本进行无监督的模型训练,在所述无监督的模型的输出层后加上全连接层,作为所述预生成的模型。
8.根据权利要求7所述的装置,其特征在于,所述根据搜集的文本进行无监督的模型训练,包括:
对搜集的文本进行屏蔽词预测和句子连接关系预测,得到所述无监督的模型。
9.根据权利要求6所述的装置,其特征在于,所述处理器读取执行所述用于性能测试的程序,还执行如下操作:
在所述将每个训练用的文本以及不同的指定对象分别作为输入之前,对所述每个训练用的文本进行如下操作:
将该训练用的文本和不同的指定对象分别进行组合,组合时将文本和指定对象用预定字符连接;对于每种组合结果分别进行嵌入,所述嵌入包括字嵌入、段落嵌入和位置嵌入;所述字嵌入是指将输入句子拆分成字级别,并对句子中每一个字都做字嵌入;所述段落嵌入是指使用不同字母标识输入中不同的句子或字段;所述位置嵌入是指为输入中的每一个字符标注具体位置信息;
对于每种组合结果,分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对象获取一条输入。
10.根据权利要求6所述的装置,其特征在于,所述处理器使用训练好的模型,识别输入的文本对于指定对象的评价值,包括:
当所述指定对象为一个时,所述评价值为所述指定对象的分类结果;
当所述指定对象为两个或以上时,所述评价值为所述指定对象的分类结果的表格;
其中,所述分类结果包括积极、未提及和消极。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099550.6A CN109933784B (zh) | 2019-01-31 | 2019-01-31 | 一种文本识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099550.6A CN109933784B (zh) | 2019-01-31 | 2019-01-31 | 一种文本识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933784A true CN109933784A (zh) | 2019-06-25 |
CN109933784B CN109933784B (zh) | 2022-12-20 |
Family
ID=66985377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910099550.6A Active CN109933784B (zh) | 2019-01-31 | 2019-01-31 | 一种文本识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933784B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069311A (zh) * | 2020-08-04 | 2020-12-11 | 北京声智科技有限公司 | 一种文本提取方法、装置、设备及介质 |
CN113449100A (zh) * | 2020-03-26 | 2021-09-28 | 北京国双科技有限公司 | 文本的评论性质识别方法、机器学习模型训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030013637A1 (en) * | 2001-05-18 | 2003-01-16 | Hideto Ikushima | Novel anti-autoimmune composition by inhibition of GRF action |
CN105122727A (zh) * | 2013-01-11 | 2015-12-02 | Db网络公司 | 用于检测并减轻对结构化数据存储系统的威胁的系统和方法 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
-
2019
- 2019-01-31 CN CN201910099550.6A patent/CN109933784B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030013637A1 (en) * | 2001-05-18 | 2003-01-16 | Hideto Ikushima | Novel anti-autoimmune composition by inhibition of GRF action |
CN105122727A (zh) * | 2013-01-11 | 2015-12-02 | Db网络公司 | 用于检测并减轻对结构化数据存储系统的威胁的系统和方法 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449100A (zh) * | 2020-03-26 | 2021-09-28 | 北京国双科技有限公司 | 文本的评论性质识别方法、机器学习模型训练方法及装置 |
CN112069311A (zh) * | 2020-08-04 | 2020-12-11 | 北京声智科技有限公司 | 一种文本提取方法、装置、设备及介质 |
CN112069311B (zh) * | 2020-08-04 | 2024-06-11 | 北京声智科技有限公司 | 一种文本提取方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109933784B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | Social media analytics: Extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor | |
Smeureanu et al. | Applying supervised opinion mining techniques on online user reviews | |
US9092734B2 (en) | Systems and methods for interactive displays based on associations for machine-guided rule creation | |
Hammad et al. | An approach for detecting spam in Arabic opinion reviews | |
US9117174B2 (en) | System for efficiently generating K-maximally predictive association rules with a given consequent | |
US20150242762A1 (en) | Generating and displaying canonical rule sets with dimensional targets | |
CN105095288B (zh) | 数据分析方法及数据分析装置 | |
US20150113388A1 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
JP2017111672A (ja) | 文書分類装置、文書分類方法、及び文書分類プログラム | |
Corallo et al. | Sentiment analysis for government: An optimized approach | |
CN106354787A (zh) | 一种基于相似度的实体共指消解方法 | |
CN109933784A (zh) | 一种文本识别方法和装置 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
JP2013131075A (ja) | 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法 | |
Omondiagbe et al. | Features that predict the acceptability of java and javascript answers on stack overflow | |
Taghandiki et al. | Topic modeling: Exploring the processes, tools, challenges and applications | |
JP2012221431A (ja) | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム | |
Pugsee et al. | Sentiment analysis of food recipe comments | |
Laeeq et al. | Sentimental Classification of Social Media using Data Mining. | |
Rekik et al. | Extraction of association rules used for assessing web sites' quality from a set of criteria | |
Suresh | An innovative and efficient method for Twitter sentiment analysis | |
Fard et al. | Detecting rumours in disasters: an imbalanced learning approach | |
JP5634859B2 (ja) | サイトクラスタシステムおよびサイトクラスタ方法 | |
CN112328812A (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230805 Address after: Room 103-365, No. 2, Lane 99, Changjiang South Road, Baoshan District, Shanghai, 2019 Patentee after: Shanghai Guisheng Technology Co.,Ltd. Address before: 102218 5th floor, building 1, China Coal Construction Group building, 398 Zhongdong Road, Dongxiaokou Town, Changping District, Beijing Patentee before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd. |
|
TR01 | Transfer of patent right |