CN105653519A - 一种领域专有词的挖掘方法 - Google Patents
一种领域专有词的挖掘方法 Download PDFInfo
- Publication number
- CN105653519A CN105653519A CN201511006779.9A CN201511006779A CN105653519A CN 105653519 A CN105653519 A CN 105653519A CN 201511006779 A CN201511006779 A CN 201511006779A CN 105653519 A CN105653519 A CN 105653519A
- Authority
- CN
- China
- Prior art keywords
- character
- sentence
- field
- training
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种领域专有词汇的挖掘构建的方法,属于自然语言处理的计算机技术应用领域。本发明的优点是:本发明基于语料的领域相关性,提出了结合领域主题词典和统计模型的专有词挖掘方法,算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的专有词挖掘模型;而应用时可方便的在新的词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词,而提取后的词汇形成的领域专有词可补充进领域专业词典中,进一步供给计算机做后续的各种分析。
Description
技术领域
本发明涉及一种领域专有词汇的挖掘构建的方法,属于自然语言处理的计算机技术应用领域。
背景技术
自然语言是人类在长期生活中形成的一种承载信息的交流符号,这种符号语言的含义由人们的生活环境、领域分工以及工作经验所影响造就。而字作为语言信息表达的基本元素,有共同的经历人员会为表达特定领域的一种实体或者行为,而将字拼接起来形成专用词汇。
随着社会分工的不断分化,人们从事的领域类型不断增多,各领域中产生的专用词汇的数量也变得庞大,不同领域之间的词汇的意思也不尽相同,而对领域中语言涉及的领域专有词的认知,更需要通过在领域中的经验,而无法由字的拼接规律来推理表达。领域专有词的认识问题成为了自然语言语义理解的基本问题。
通过计算机自动挖掘领域专有词语是很现实的应用需求。当前计算机的记忆功能强,而推理技能不足,在对领域专有词的认知上,基于人工规则的方法,重点在于从语法结构上分析构建构词规则,并在分析语料时完全利用规则发现词语,这种方法对参与人员的语言及领域的专业知识要求都很高,而人思考设计的遗漏必然导致词汇总结的缺失量更大,而且这种系统不便于迁移到不同领域上;基于统计的方法从自然语言文本中分析词汇组成的概率,由于对领域的训练数据的体量足够大,这对人工标注的劳动要求很高,当前的主要处理方式多是在不分领域的熟语料上进行统一的训练学习生成模型,并最终用在不同领域上,这造成了准确率降低。挖掘出领域专有词汇并形成专有词汇字典,是为了后续的应用任务,而由于通用方法的针对性不足,加入了不同领域的专有词的会造成后续任务的失效。
为解决各专有领域的专有词汇的挖掘问题,本发明提出一种自适应的领域专有词的挖掘方法,可结合一般语料进行建模分析,并在不同领域上进行变通应用,可有效提高专有词挖掘的准确性和全面性。
发明内容
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(各句子中的字符有确定的是否被标注为专有词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;领域主题词典Dz;
训练步骤二:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
;
其中各特征的提取细节步骤为:
训练步骤二一:对各个句子S(i)中的每个序位上的字符s(i,ji),建立各序位的字符对应的5个字符型特征,分别表示为f1(i,ji),f2(i,ji),f3(i,ji),f4(i,ji),f5(i,ji):
训练步骤二二:对各个句子S(i)中的每个序位上的字符,建立各字符对应的4个用字符或字符串表示的特征,分别表示为f6,f7,f8:
训练步骤二三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12:
训练步骤三:在一个指定的可加入自定义词典的分词器中,加入对应的领域词典Dz中的所有词,把这个加入分词器记为Seg,对训练语料S的各个句子用Seg做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的分词类别表示结果q(i,ji);
训练步骤四:对训练语料S的各个句子用一个指定的词性标注器做词性处理,此标注器记为Pes,标出各个字符被标注器处理后的结果,对应即得到各句子S(i)的每个序位上的字符s(i,ji)的词性标注结果,记为p(i,ji);
训练步骤五:对训练语料S的各个句子的字符,根据是否是一个专有词的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的专有词标记表示结果g(i,ji);
训练步骤六:基于条件随机场模型,将训练语料中所有字符的表达结果{F(s(i,ji)),q(i,ji),p(i,ji)}作为高级训练特征,对应的类别表示结果g(i,ji)作为类别判定数据,进行训练,得到训练后的专有词挖掘模型M。
应用阶段
对于一个要做专有词提取处理的语料AG={G1,G2,…,GNm},AG中包含Nm篇长文本,对每篇长文本G做以下处理:
应用步骤一:对G的所有句子,基于训练过程涉及的分词器Seg,在Seg中加入额外的领域相关词汇(0个或多个),形成新的分词器Sep,应用Sep对G的所有句子做分词处理,并将分词后的所有词记为SG;
应用步骤二:统计SG和领域主题词典Dz中相同词的个数Ngz,并判断Ngz是否大于3,当Ngz不大于3时,中止在此文本G中的专有词的提取处理;若是Ngz大于等于3,则继续进行应用步骤三;
应用步骤三:G中的句子总数记为t,对G中各个句子
Rt={c(t,1),c(t,2),…,c(t,m),…,c(t,ty)},其中c(t,m)为对应的第t句中的依序排列的各个字符,ty为第t句的字符总数,先对句子中的每个字符c(t,m)提取特征F(c(t,m)),其中1≤m≤y,而
,
其中各特征的提取细节步骤为:
应用步骤三一:对各个句子Rt中的每个序位上的字符c(t,m),建立各序位的字符对应的5个字符型特征,分别表示为f1(t,m),f2(t,m),f3(t,m),f4(t,m),f5(t,m):
应用步骤三二:对各个句子Rt中的每个序位上的字符c(t,m),建立各字符对应的4个用字符或字符串表示的特征,分别表示为f6,f7,f8:
应用步骤三三:对各个句子Rt中的每个序位上的字符c(t,m),建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12:
应用步骤四:应用Seg对长文本G的各句子Rt做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子Rt中的每个序位上的字符c(t,m)的分词类别表示结果q(t,m);
应用步骤五:对长文本G的各句子Rt,用词性标注器Pes做词性处理,标出各个字符被标注器处理后的结果,对应即得到各句子Rt中的每个序位上的字符c(t,m)的词性标注结果,记为p(i,ji);
应用步骤六:将句子Rt中的中所有字符的表达结果{F(c(t,m)),q(t,m),p(t,mi)}作为高级训练特征,输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(c(t,m));
应用步骤七:输出所有g(c(t,m))值为1或3的字符cm的序位,在同一个句子Rt中,由g(c(t,m))值为1的位置和g(c(t,m))值为3的位置之间的字符组成的词汇,即做为提取出的此领域的专有词。
本发明的优点是:本发明基于语料的领域相关性,提出了结合领域主题词典和统计模型的专有词挖掘方法,处理中把领域专有词典信息作为一个度量领域语料相关性的资源,并全面考虑模型学习时原始训练语料对词典的影响,而算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的专有词挖掘模型;而应用时可方便的在新的词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。
本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词,并方便在不同领域下进行扩展应用,而提取后的词汇形成的领域专有词可补充进领域专业词典中,进一步供给计算机做后续的各种分析。
附图说明
图1为本发明的模型训练的方法的流程图,图2为应用的方法的流程图。
具体实施方式
下面结合附图图1和图2说明本实施方式。
本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤:
训练阶段
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(各句子中的字符有确定的是否被标注为专有词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;领域主题词典Dz;
训练步骤二:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
;
其中各特征的提取细节步骤为:
训练步骤二一:对各个句子S(i)中的每个序位上的字符s(i,ji),建立各序位的字符对应的5个字符型特征,分别表示为f1(i,ji),f2(i,ji),f3(i,ji),f4(i,ji),f5(i,ji):
训练步骤二二:对各个句子S(i)中的每个序位上的字符,建立各字符对应的4个用字符或字符串表示的特征,分别表示为f6,f7,f8:
训练步骤二三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12:
训练步骤三:在一个指定的可加入自定义词典的分词器中,加入对应的领域词典Dz中的所有词,把这个加入分词器记为Seg,对训练语料S的各个句子用Seg做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的分词类别表示结果q(i,ji);
训练步骤四:对训练语料S的各个句子用一个指定的词性标注器做词性处理,此标注器记为Pes,标出各个字符被标注器处理后的结果,对应即得到各句子S(i)的每个序位上的字符s(i,ji)的词性标注结果,记为p(i,ji);
训练步骤五:对训练语料S的各个句子的字符,根据是否是一个专有词的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的专有词标记表示结果g(i,ji);
训练步骤六:基于条件随机场模型,将训练语料中所有字符的表达结果{F(s(i,ji)),q(i,ji),p(i,ji)}作为高级训练特征,对应的类别表示结果g(i,ji)作为类别判定数据,进行训练,得到训练后的专有词挖掘模型M。
应用阶段
对于一个要做专有词提取处理的语料AG={G1,G2,…,GNm},AG中包含Nm篇长文本,对每篇长文本G做以下处理:
应用步骤一:对G的所有句子,基于训练过程涉及的分词器Seg,在Seg中加入额外的领域相关词汇(0个或多个),形成新的分词器Sep,应用Sep对G的所有句子做分词处理,并将分词后的所有词记为SG;
应用步骤二:统计SG和领域主题词典Dz中相同词的个数Ngz,并判断Ngz是否大于3,当Ngz不大于3时,中止在此文本G中的专有词的提取处理;若是Ngz大于等于3,则继续进行应用步骤三;
应用步骤三:G中的句子总数记为t,对G中各个句子
Rt={c(t,1),c(t,2),…,c(t,m),…,c(t,ty)},其中c(t,m)为对应的第t句中的依序排列的各个字符,ty为第t句的字符总数,先对句子中的每个字符c(t,m)提取特征F(c(t,m)),其中1≤m≤y,而
,
其中各特征的提取细节步骤为:
应用步骤三一:对各个句子Rt中的每个序位上的字符c(t,m),建立各序位的字符对应的5个字符型特征,分别表示为f1(t,m),f2(t,m),f3(t,m),f4(t,m),f5(t,m):
应用步骤三二:对各个句子Rt中的每个序位上的字符c(t,m),建立各字符对应的4个用字符或字符串表示的特征,分别表示为f6,f7,f8:
应用步骤三三:对各个句子Rt中的每个序位上的字符c(t,m),建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12:
应用步骤四:应用Seg对长文本G的各句子Rt做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子Rt中的每个序位上的字符c(t,m)的分词类别表示结果q(t,m);
应用步骤五:对长文本G的各句子Rt,用词性标注器Pes做词性处理,标出各个字符被标注器处理后的结果,对应即得到各句子Rt中的每个序位上的字符c(t,m)的词性标注结果,记为p(i,ji);
应用步骤六:将句子Rt中的中所有字符的表达结果{F(c(t,m)),q(t,m),p(t,mi)}作为高级训练特征,输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(c(t,m));
应用步骤七:输出所有g(c(t,m))值为1或3的字符cm的序位,在同一个句子Rt中,由g(c(t,m))值为1的位置和g(c(t,m))值为3的位置之间的字符组成的词汇,即做为提取出的此领域的专有词。
Claims (3)
1.一种领域专有词的挖掘方法,其特征是:它由训练模型和应用模型两个阶段组成,,其中训练阶段包括:
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(各句子中的字符有确定的是否被标注为专有词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;领域主题词典Dz;
训练步骤二:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
;
训练步骤三:在一个指定的可加入自定义词典的分词器中,加入对应的领域词典Dz中的所有词,把这个加入分词器记为Seg,对训练语料S的各个句子用Seg做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的分词类别表示结果q(i,ji);
训练步骤四:对训练语料S的各个句子用一个指定的词性标注器做词性处理,此标注器记为Pes,标出各个字符被标注器处理后的结果,对应即得到各句子S(i)的每个序位上的字符s(i,ji)的词性标注结果,记为p(i,ji);
训练步骤五:对训练语料S的各个句子的字符,根据是否是一个专有词的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)的专有词标记表示结果g(i,ji);
训练步骤六:基于条件随机场模型,将训练语料中所有字符的表达结果{F(s(i,ji)),q(i,ji),p(i,ji)}作为高级训练特征,对应的类别表示结果g(i,ji)作为类别判定数据,进行训练,得到训练后的专有词挖掘模型M。
2.根据权利要求1所述的方法,其特征在于所述应用阶段的包括:
对于一个要做专有词提取处理的语料AG={G1,G2,…,GNm},AG中包含Nm篇长文本,对每篇长文本G做以下处理:
应用步骤一:对G的所有句子,基于训练过程涉及的分词器Seg,在Seg中加入额外的领域相关词汇(0个或多个),形成新的分词器Sep,应用Sep对G的所有句子做分词处理,并将分词后的所有词记为SG;
应用步骤二:统计SG和领域主题词典Dz中相同词的个数Ngz,并判断Ngz是否大于3,当Ngz不大于3时,中止在此文本G中的专有词的提取处理;若是Ngz大于等于3,则继续进行应用步骤三;
应用步骤三:G中的句子总数记为t,对G中各个句子Rt={c(t,1),c(t,2),…,c(t,m),…,c(t,ty)},其中c(t,m)为对应的第t句中的依序排列的各个字符,ty为第t句的字符总数,先对句子中的每个字符c(t,m)提取特征F(c(t,m)),其中1≤m≤y,而
应用步骤四:应用Seg对长文本G的各句子Rt做分词处理,标出各个字符被分词处理后的结果,并对分词结果进行数字化表示,对应得到各句子Rt中的每个序位上的字符c(t,m)的分词类别表示结果q(t,m);
应用步骤五:对长文本G的各句子Rt,用词性标注器Pes做词性处理,标出各个字符被标注器处理后的结果,对应即得到各句子Rt中的每个序位上的字符c(t,m)的词性标注结果,记为p(i,ji);
应用步骤六:将句子Rt中的中所有字符的表达结果{F(c(t,m)),q(t,m),p(t,mi)}作为高级训练特征,输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(c(t,m));
应用步骤七:输出所有g(c(t,m))值为1或3的字符cm的序位,在同一个句子Rt中,由g(c(t,m))值为1的位置和g(c(t,m))值为3的位置之间的字符组成的词汇,即做为提取出的此领域的专有词。
3.根据权利要求1或权利要求2所述的方法,其特征在于所述训练阶段的步骤二具体包括:
训练步骤二一:对各个句子S(i)中的每个序位上的字符s(i,ji),建立各序位的字符对应的5个字符型特征,分别表示为f1(i,ji),f2(i,ji),f3(i,ji),f4(i,ji),f5(i,ji):
训练步骤二二:对各个句子S(i)中的每个序位上的字符,建立各字符对应的4个用字符或字符串表示的特征,分别表示为f6,f7,f8:
训练步骤二三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511006779.9A CN105653519A (zh) | 2015-12-30 | 2015-12-30 | 一种领域专有词的挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511006779.9A CN105653519A (zh) | 2015-12-30 | 2015-12-30 | 一种领域专有词的挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105653519A true CN105653519A (zh) | 2016-06-08 |
Family
ID=56477029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511006779.9A Pending CN105653519A (zh) | 2015-12-30 | 2015-12-30 | 一种领域专有词的挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653519A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423264A (zh) * | 2017-07-10 | 2017-12-01 | 广东华联建设投资管理股份有限公司 | 一种工程材料专业特征提取方法 |
CN107704521A (zh) * | 2017-09-07 | 2018-02-16 | 北京零秒科技有限公司 | 一种问答处理服务器、客户端以及实现方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
WO2020199270A1 (en) * | 2019-04-04 | 2020-10-08 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for identifying proper nouns |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103176963A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 基于crf++汉语句义结构模型自动标注方法 |
WO2014190732A1 (en) * | 2013-05-29 | 2014-12-04 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
US20150199333A1 (en) * | 2014-01-15 | 2015-07-16 | Abbyy Infopoisk Llc | Automatic extraction of named entities from texts |
-
2015
- 2015-12-30 CN CN201511006779.9A patent/CN105653519A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103176963A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 基于crf++汉语句义结构模型自动标注方法 |
WO2014190732A1 (en) * | 2013-05-29 | 2014-12-04 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
US20150199333A1 (en) * | 2014-01-15 | 2015-07-16 | Abbyy Infopoisk Llc | Automatic extraction of named entities from texts |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
Non-Patent Citations (1)
Title |
---|
王琦: "词典和机器学习相结合的生物命名实体识别", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423264A (zh) * | 2017-07-10 | 2017-12-01 | 广东华联建设投资管理股份有限公司 | 一种工程材料专业特征提取方法 |
CN107704521A (zh) * | 2017-09-07 | 2018-02-16 | 北京零秒科技有限公司 | 一种问答处理服务器、客户端以及实现方法 |
WO2020199270A1 (en) * | 2019-04-04 | 2020-10-08 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for identifying proper nouns |
CN111797620A (zh) * | 2019-04-04 | 2020-10-20 | 北京嘀嘀无限科技发展有限公司 | 识别专有名词的系统和方法 |
CN111797620B (zh) * | 2019-04-04 | 2023-12-19 | 北京嘀嘀无限科技发展有限公司 | 识别专有名词的系统和方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN110502644B (zh) * | 2019-08-28 | 2023-08-04 | 同方知网数字出版技术股份有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN107168945A (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN109213861A (zh) | 结合At_GRU神经网络与情感词典的旅游评价情感分类方法 | |
CN108647191B (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN103176963B (zh) | 基于crf++汉语句义结构模型自动标注方法 | |
CN105653519A (zh) | 一种领域专有词的挖掘方法 | |
CN105260356A (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN108073565A (zh) | 词语规范化的方法和设备及机器翻译方法和设备 | |
CN105068990B (zh) | 一种面向机器翻译的多策略英文长句分割方法 | |
Bharathi | SSNCSE_NLP@ DravidianLangTech-EACL2021: Offensive language identification on multilingual code mixing text | |
CN107977345A (zh) | 一种通用文本信息抽取方法以及系统 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN111324708A (zh) | 一种基于人机交互的自然语言处理系统 | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN105095190A (zh) | 一种基于中文语义结构和细分词库结合的情感分析方法 | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN110502634A (zh) | 一种案由的判定和抓取方法及其系统 | |
Chen et al. | Explaining neural network predictions on sentence pairs via learning word-group masks | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160608 |