CN106570179B - 一种面向评价性文本的核心实体识别方法及装置 - Google Patents

一种面向评价性文本的核心实体识别方法及装置 Download PDF

Info

Publication number
CN106570179B
CN106570179B CN201610991857.3A CN201610991857A CN106570179B CN 106570179 B CN106570179 B CN 106570179B CN 201610991857 A CN201610991857 A CN 201610991857A CN 106570179 B CN106570179 B CN 106570179B
Authority
CN
China
Prior art keywords
entity
word
text
kernel
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610991857.3A
Other languages
English (en)
Other versions
CN106570179A (zh
Inventor
李全刚
柳厅文
王玉斌
李柢颖
时金桥
亚静
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610991857.3A priority Critical patent/CN106570179B/zh
Publication of CN106570179A publication Critical patent/CN106570179A/zh
Application granted granted Critical
Publication of CN106570179B publication Critical patent/CN106570179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。

Description

一种面向评价性文本的核心实体识别方法及装置
技术领域
本发明属于信息技术领域,具体涉及一种面向评价性文本的核心实体识别方法及装置。
背景技术
评价性文本是指用户消费行为中对各类商品、服务的评论语句,常见的有各购物、餐饮、旅游网站的用户评论,如美食点评、电影观后感,旅游行记等。核心实体识别,即从评价性文本中,结合上下文识别出该文本所讨论的最重要的实体。此类评价性文本是影响潜在用户消费的重要因素,提取文本中的核心实体,可为用户决策判断提供有力依据。
随着网络技术发展及移动终端的普及,用户网上消费越来越普遍,随之产生了海量的消费评论。而这些海量的评价性文本类型丰富多样、语言碎片化严重,核心实体名称繁杂多变,规则匹配很难从评价性文本中准确识别出核心实体。
人工标注虽然准确率高但过于费时费力;基于规则匹配虽然高效但受限于有显著规律的文本格式及实体名称;基于句法分析的方法,会因为评价性文本口语化、语句碎片化导致的信息缺失而影响识别效果。
发明内容
本发明的目的在于提供一种面向评价性文本的核心实体识别方法及装置,使得针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体。
为实现上述目的,本发明采用的技术方案如下:
一种面向评价性文本的核心实体识别方法,其步骤包括:
1)输入评价性文本,基于专家规则和行业专有词典识别该文本中的核心实体;
2)对上述步骤未识别出核心实体的文本,使用训练好的基于词的双向LSTM(Long-Short Term Memory,长短期记忆)模型进行核心实体识别;
3)对上述模型未识别出核心实体的文本,通过对已有实体集的统计并结合文本分词和词性标注,生成一个候选实体作为核心实体。
该方法中步骤1)提及的专家规则,主要是为了应对实体命名比较规范的类型,输入是评价性文本和行业专有词典,输出是匹配到词典的文本片段,即为该评价性文本的核心实体。
该方法中步骤2)训练基于词的双向LSTM模型时要对训练文本进行分词,同时截取定长的上下文一起构成词序列,同时采用采样窗口机制,保证训练集中正负采样数量的均衡。
一种面向评价性文本的核心实体识别装置,其包括:
规则匹配模块,负责基于专家规则和行业专有词典识别评价性文本中的核心实体;
模型识别模块,负责训练双向LSTM模型,并对规则匹配模块未识别出核心实体的评价性文本进行核心实体识别;
候选实体生成模块,负责对规则匹配模块和模型识别模块未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。
利用本发明提供的方法识别评价性文本的核心实体,具有以下优点:
1、该方法通过行业词典匹配、基于词的双向LSTM模型识别、基于已有实体集生成候选实体共同作用,解决了对多种语句描述风格的海量评价性文本的核心实体识别,为用户决策判断提供有力依据;
2、在训练双向LSTM模型时使用采样窗口机制,保证了训练集中正负采样数量的均衡,从而减小了训练样本体量,提高模型训练效率和有效性;
3、实际中关于某个实体会存在多条评论,通过统计规则匹配和模型输出所生成的已有实体集,生成候选实体能够对模型未识别出实体的情况进行有效补充。
附图说明
图1是本发明的面向评价性文本的核心实体识别方法的步骤流程图。
图2是本发明的面向评价性文本的核心实体识别装置的模块组成图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本发明能够处理多类型混合的评价性文本,自主学习文本语言特征,有效地识别出核心实体。该方法的流程如图1所示,其主要步骤包括:
(1)制定专家规则,首先对核心实体命名相对规范的类型构建行业专有词典,如汽车品牌、医院名、景点名等,然后使用规则匹配方法识别核心实体;
(2)训练模型,使用标注好的训练数据训练基于词的双向LSTM模型;
(3)模型识别实体,使用训练好的双向LSTM模型进行核心实体识别;
(4)生成候选实体,对于规则和模型均未识别出核心实体的文本,通过文本分词、词性标注和已有实体集生成一个候选实体作为核心实体。
步骤(1)首先采集特定行业命名词典,制定匹配规则识别核心实体,该方法主要是对核心实体命名相对规范的类型进行核心实体识别。
步骤(2)训练模型时主要有以下几步:
i)对于标注好的训练文本(标注是指人工标注出评价性文本中的核心实体),首先对文本进行分词处理(连续的英文及数字整体作为一个词,标点符号作为一个词),以每个词为中心截取定长的上下文作为训练样本,上下文长度不足的补0处理;
ii)如果一个词序列的中心词属于目标核心实体,则该样本为正样本,否则为负样本;
iii)按上述操作后,一条包含N个词的评价性文本被处理成N个定长词序列,然后以核心实体首词和尾词为起点按定长采样窗口分别向前、向后选取词序列(长度不足的忽略),连同核心实体对应的词序列一起作为该评价性文本的训练样本;
iv)训练集分词处理后,统计词典,并依据词频对词进行编号,根据词编号将训练样本转为数字序列;
v)处理完所有带标注的文本,生成训练样本集,利用该训练样本集训练基于词的双向LSTM模型。将训练样本集分为训练和验证两部分,通过设置激活函数、损失函数等参数对LSTM模型进行训练。可以采用现有的模型训练方法实现。
步骤(3)对测试文本同样进行分词处理,以每个词为中心截取定长的上下文作为训练样本,上下文长度不足的补0处理,一条包含N个词的评价性文本被处理成N个定长词序列,并依据训练集词典和编号转化为数字序列(未登录词编为0),将此N个序列输入到训练好的双向LSTM模型中进行序列标注。
步骤(4)对评价性文本进行分词和词性标注,统计已有实体集中各实体词的频次,把分词后的文本中满足如下条件的词作为核心实体:
i)包含已有实体集中实体,选择出现频次最高者作为该句核心实体;
ii)不含已有实体集中实体,选择首个词性为名词的词为该句核心实体。
本发明还提供一种采用上述方法的面向评价性文本的核心实体识别装置,包括规则匹配模块、模型识别模块和候选实体生成模块,如图2所示。其中,规则匹配模块负责基于专家规则和行业专有词典识别评价性文本中的核心实体;模型识别模块负责训练双向LSTM模型,并对规则匹配模块未识别出核心实体的评价性文本进行核心实体识别;候选实体生成模块负责对规则匹配模块和模型识别模块未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。
实例:一种面向评价性文本的核心实体识别方法
对于不同类型的评价性文本找出其中的核心实体,以旅游评论为例,“春天,颐和园的风景很美。”该句主要围绕颐和园展开评论,因此核心实体为“颐和园”。
1)首先分析某类评论的实体类别是否有相对规范的命名,如景点名称、汽车品牌等整体上存在有限且统一的名称。可以通过网络采集构建特定行业命名词典。由于评价性文本讨论的实体集中出现在句子前半部分,因此将文本前半部分出现的首个行业命名词典中的词作为该句子的核心实体。
对于未匹配成功的文本输出到后续模型识别部分。
2)训练模型,使用标注好的训练数据训练基于词的双向LSTM模型。例如文本“北京今天高峰期很堵。”中的核心实体为“北京”。
i)对于标注好的训练文本,首先进行分词(连续的英文及数字整体作为一个词,标点符号作为一个词),以每个词为中心截取定长的上下文作为训练样本,上下文长度不足的补0处理。
假设此处截取的上下文定长为2,则分词后为包含5个词的文本“北京|今天|高峰期|很堵|。”可以转为如表1所示的5个序列(“|”为分隔符,标粗为中心词):
表1.截取定长上下文后的词序列
ii)如果一个词序列的中心词为标注的核心实体,则该样本为正样本,否则为负样本。
此处“北京”为核心实体,因此编号为1的样本“0|0|北京|今天|高峰期”为正样本,其余为负样本。
iii)按上述操作后,一条包含N个词的评价性文本被处理成N个定长词序列,然后以核心实体为起点按定长采样窗口分别向前、向后选取词序列(长度不足的忽略),连同核心实体对应的词序列一起作为训练样本。
假设采样窗口为2,则由“北京今天高峰期很堵。”产生的训练样本如表2所示。
表2.截取定长上下文后的词序列
iv)对训练集中的所有评价性文本进行分词后,生成词典,并依据词频对词进行编号,根据词编号将训练样本转为数字序列,如表3、表4所示。
词典统计应基于全体训练文本,编号从1开始,词的编号顺序可随意,此处按字频由大到小依次编号。
v)处理完所有带标注的文本,生成训练样本集,训练双向LSTM模型。
3)模型识别实体,使用训练好的双向LSTM模型进行核心实体识别。对测试文本同样进行分词,以每个词为中心截取定长的上下文作为训练样本,上下文长度不足的补0处理,一条包含N个词的评价性文本被处理成N个定长词序列,并依据训练集词典和编号转化为数字序列(未登录词编为0),将此N个序列输入到训练好的双向LSTM模型中进行序列标注。
例如文本“广州今天中午很热。”经过上述操作可变为如下序列
使用训练好的双向LSTM模型可以预测每个序列的类别,如上表输入测试文本“广州今天中午很热。”,模型最终输出为序列“10000”,类别为1表示测试文本中对应位置的词为核心实体,0则表示不是核心实体。选择输出序列中首个为1的标注,通过对应位置可以得出该句的核心实体为“广州”。
如果模型输出预测序列均为0,即模型未识别出实体,则将文本输出到下一步骤。
4)生成候选实体,对于规则和模型均未识别出核心实体的文本,统计已有实体集中各实体词的频次,把分词后的文本中满足如下条件的词作为核心实体:
i)包含已有实体集中实体,选择出现频次最高者作为该句核心实体;
ii)不含已有实体集中实体,选择首个词性为名词的词为该句核心实体。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种面向评价性文本的核心实体识别方法,其特征在于,包括以下步骤:
1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;
2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;在训练双向LSTM模型时使用采样窗口机制来保证训练集中正负采样数量的均衡;训练双向LSTM模型的方法是:
i)对于标注好的训练文本进行分词处理,以每个词为中心截取定长的上下文作为训练样本,上下文长度不足的补0处理;
ii)如果一个词序列的中心词属于目标核心实体,则该样本为正样本,否则为负样本;
iii)按上述操作后,一条包含N个词的评价性文本被处理成N个定长词序列,然后以核心实体首词和尾词为起点按定长采样窗口分别向前、向后选取词序列,连同核心实体对应的词序列一起作为该评价性文本的训练样本;
iv)训练集分词处理后统计词典并依据词频对词进行编号,根据词编号将训练样本转为数字序列;
v)处理完所有带标注的文本,生成训练样本集,利用该训练样本集训练基于词的双向LSTM模型;
3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。
2.如权利要求1所述的方法,其特征在于:步骤1)所述专家规则用于识别命名规范的核心实体类型,其输入是评价性文本和行业专有词典,输出是与行业专有词典匹配的文本片段,即为该评价性文本的核心实体。
3.如权利要求1所述的方法,其特征在于:步骤1)将评价性文本中一个句子的前半部分出现的首个行业专有词典中的词作为该句子的核心实体。
4.如权利要求1所述的方法,其特征在于:步骤3)对评价性文本进行分词和词性标注,统计已有实体集中各实体词的频次,把分词后的文本中满足如下条件的词作为核心实体:
i)包含已有实体集中实体,选择出现频次最高者作为核心实体;
ii)不含已有实体集中实体,选择首个词性为名词的词为核心实体。
5.一种面向评价性文本的核心实体识别装置,其特征在于,包括:
规则匹配模块,负责基于专家规则和行业专有词典识别评价性文本中的核心实体;
模型识别模块,负责训练双向LSTM模型,并对规则匹配模块未识别出核心实体的评价性文本进行核心实体识别;
候选实体生成模块,负责对规则匹配模块和模型识别模块未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体;
所述模型识别模块在训练双向LSTM模型时使用采样窗口机制来保证训练集中正负采样数量的均衡;训练双向LSTM模型的方法是:
i)对于标注好的训练文本进行分词处理,以每个词为中心截取定长的上下文作为训练样本,上下文长度不足的补0处理;
ii)如果一个词序列的中心词属于目标核心实体,则该样本为正样本,否则为负样本;
iii)按上述操作后,一条包含N个词的评价性文本被处理成N个定长词序列,然后以核心实体首词和尾词为起点按定长采样窗口分别向前、向后选取词序列,连同核心实体对应的词序列一起作为该评价性文本的训练样本;
iv)训练集分词处理后统计词典并依据词频对词进行编号,根据词编号将训练样本转为数字序列;
v)处理完所有带标注的文本,生成训练样本集,利用该训练样本集训练基于词的双向LSTM模型。
6.如权利要求5所述的装置,其特征在于:所述规则匹配模块将评价性文本中一个句子的前半部分出现的首个行业专有词典中的词作为该句子的核心实体。
7.如权利要求5所述的装置,其特征在于:所述候选实体生成模块对评价性文本进行分词和词性标注,统计已有实体集中各实体词的频次,把分词后的文本中满足如下条件的词作为核心实体:
i)包含已有实体集中实体,选择出现频次最高者作为核心实体;
ii)不含已有实体集中实体,选择首个词性为名词的词为核心实体。
CN201610991857.3A 2016-11-10 2016-11-10 一种面向评价性文本的核心实体识别方法及装置 Active CN106570179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610991857.3A CN106570179B (zh) 2016-11-10 2016-11-10 一种面向评价性文本的核心实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610991857.3A CN106570179B (zh) 2016-11-10 2016-11-10 一种面向评价性文本的核心实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN106570179A CN106570179A (zh) 2017-04-19
CN106570179B true CN106570179B (zh) 2019-11-19

Family

ID=58541159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610991857.3A Active CN106570179B (zh) 2016-11-10 2016-11-10 一种面向评价性文本的核心实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN106570179B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193959B (zh) * 2017-05-24 2020-11-27 南京大学 一种面向纯文本的企业实体分类方法
CN107451433B (zh) * 2017-06-27 2020-05-22 中国科学院信息工程研究所 一种基于文本内容的信息源识别方法与装置
CN110019648B (zh) * 2017-12-05 2021-02-02 深圳市腾讯计算机系统有限公司 一种训练数据的方法、装置及存储介质
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN108363753B (zh) * 2018-01-30 2020-05-19 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及系统
CN108845988B (zh) * 2018-06-07 2022-06-10 苏州大学 一种实体识别方法、装置、设备及计算机可读存储介质
CN110633464A (zh) * 2018-06-22 2019-12-31 北京京东尚科信息技术有限公司 一种语义识别方法、装置、介质及电子设备
CN109299400A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点抽取方法、装置及设备
CN111104798B (zh) * 2018-10-27 2023-04-21 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN109493977B (zh) * 2018-11-09 2020-07-31 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN110008807B (zh) * 2018-12-20 2023-08-18 创新先进技术有限公司 一种合同内容识别模型的训练方法、装置及设备
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN110931125A (zh) * 2019-12-11 2020-03-27 北京深睿博联科技有限责任公司 用于脑卒中的判别信号识别方法及装置
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN113742523B (zh) * 2020-05-29 2023-06-27 北京百度网讯科技有限公司 文本核心实体的标注方法及装置
CN112950019B (zh) * 2021-03-01 2024-03-29 昆明电力交易中心有限责任公司 一种基于联合注意力机制的售电公司评价情感分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN105138515A (zh) * 2015-09-02 2015-12-09 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN105138515A (zh) * 2015-09-02 2015-12-09 百度在线网络技术(北京)有限公司 命名实体识别方法和装置
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Bidirectional LSTM-CRF Models for Sequence Tagging》;Zhiheng Huang等;《arxiv.org》;20150809;第1-10页 *
基于多层次特征集成的中文实体指代识别;张海雷等;《中文信息学报》;20070930;第126-130页 *

Also Published As

Publication number Publication date
CN106570179A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106570179B (zh) 一种面向评价性文本的核心实体识别方法及装置
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN106055673B (zh) 一种基于文本特征嵌入的中文短文本情感分类方法
CN106776555B (zh) 一种基于字模型的评论文本实体识别方法及装置
CN107908614A (zh) 一种基于Bi‑LSTM的命名实体识别方法
CN107609132A (zh) 一种基于语义本体库中文文本情感分析方法
CN101645083B (zh) 一种基于概念符号的文本领域的获取系统及方法
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN101246472B (zh) 一种汉语文本的大、小粒度切分实现方法和装置
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN102033919A (zh) 文本关键词提取方法及系统
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN105912720B (zh) 一种计算机中涉及情感的文本数据分析方法
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN103886053A (zh) 一种基于短文本评论的知识库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant