CN106569997A - 一种基于隐式马尔科夫模型的科技类复合短语识别方法 - Google Patents

一种基于隐式马尔科夫模型的科技类复合短语识别方法 Download PDF

Info

Publication number
CN106569997A
CN106569997A CN201610912585.3A CN201610912585A CN106569997A CN 106569997 A CN106569997 A CN 106569997A CN 201610912585 A CN201610912585 A CN 201610912585A CN 106569997 A CN106569997 A CN 106569997A
Authority
CN
China
Prior art keywords
dictionary
matrix
phrase
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610912585.3A
Other languages
English (en)
Other versions
CN106569997B (zh
Inventor
柳厅文
闫旸
赵佳鹏
李柢颖
张盼盼
李全刚
亚静
时金桥
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610912585.3A priority Critical patent/CN106569997B/zh
Publication of CN106569997A publication Critical patent/CN106569997A/zh
Application granted granted Critical
Publication of CN106569997B publication Critical patent/CN106569997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。

Description

一种基于隐式马尔科夫模型的科技类复合短语识别方法
技术领域
本发明涉及一种基于隐式马尔科夫模型的复合短语实体识别方法,属于计算机软件技术领域。
背景技术
随着多科学研究的逐步深入,现今学术界和研究者发表大量的研究成果呈海量爆炸性增长。如何自动化收集、整合、分析这些工作成为了学术界和工业界关注的问题。包括论文、书籍、技术报告、专利的题目、科技项目名称等。这一类短语在这里统称为科技类复合短语。如何高效的从各类网络语料中抽取需要的科技复合短语实体,是自动化进行学术信息抽取、知识产权保护、科技资源数据库在线建设与维护等诸多应用的基础。
传统意义上的命名实体作为是自然语言处理的基本任务抽取的对象主要包括人名、地名、组织机构名、数字、计量单位等专有名词。这些命名实体具有长度相对稳定、结构规范、命名规则统一的有利特点,这使得传统的命名实体识别系统的F1-measure往往能达到90%以上,几乎接近人类正常识别水平。而科技类名词短语不同于人名和地名。科技类复合短语往往内部结构复杂,内部包含嵌套的科技名词实体。而且科技类名词短语纷繁复杂,词语的出现与否本身具有极大的稀疏性,内部实体之间相互组合的冗余度低。这类词法结构导致识别该类命名实体的难度较大。这使得通过词语本身隐式马尔科夫输入的方法不可行。由于复合短语相对于普通的命名实体(人名、地名、机构名)词语本身词法组成更加复杂,传统的纯手工角色标注容易导致标注错误。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种复合短语自动识别与提取方法,为解决复合短语自动化识别,本文提出了一种基于隐式马尔科夫模型的复合短语的识别方法。
本发明的技术方案为:
一种基于隐式马尔科夫模型的复合短语识别方法,其步骤为:
1)采用词性标注工具对输入语料进行词性标注和分词;
2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;
3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语。
进一步的,生成所述特征词集合的方法为:选取一科技名词短语集合,记训练集为P={p1,p2,...,pn},其中pn为第n条文本标题;对该集合P进行分词处理,获取一词典数据W={w1,w2,...,wm},其中wm为词典中第m个单词;然后在该词典W中寻找一个满足最小覆盖的子集S′,使得S′满足:集合S能够覆盖集合P,即集合P的每条语料pi中至少有一个单词在S中出现;以及集合S中元素个数最小;然后将得到的子集S′作为所述特征词集合。
进一步的,采用贪心算法在词典W中寻找一个满足最小覆盖的子集S′。
进一步的,在该词典W中寻找一个满足最小覆盖的子集S′的方法为:
a)利用训练集P和词典W构造一个m×n维的二值矩阵M,其中,该二值矩阵M中的元素Mij为矩阵M的第i行第j列元素;若词典W中第i个单词wi在训练集P中的第j条文本标题pj中出现过,则令Mij=1,否则Mij=0;
b)选择该矩阵M中1数量最多的一行,记为第i行,计算S′=S′∪wi其中,为二元运算符,计算结果为去掉矩阵M中第i行以及第i行中所有非0元素所在的列,更新矩阵M;
c)重复步骤b),直到该矩阵M为空矩阵,此时单词集S′即所求的最小覆盖集S′。
进一步的,构造该二值矩阵M的方法为:将训练集P中每一短语为矩阵M的一列向量,训练集P中各短语的所有分词构成矩阵M的行向量。
进一步的,采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测的方法为:将词性标注状态作为输入隐式马尔科夫模型的显状态;当输入显状态对应的分词命中上文提示词词典、下文提示词词典或维基百科条目时,将该分词的词性标注显状态置换为命中对象对应的设定值。
进一步的,当该状态序列中的一段序列以前缀开头,中间为核心成分,以后缀结束,则将该段序列截取作为一复合短语。
进一步的,通过启发式规则建立所述上文提示词词典、下文提示词词典。
进一步的,所述特征词为科技类复合短语中的高频词。
本方法模型主要分为三部分:第一部分为首先采用词性标注工具对输入语料进行词性标注和分词。第二部分采用隐式马尔科夫进行输出序列即隐状态的预测,将得到的输出状态序列进行切分,即得到分词组合为复合短语后的结果。第三部分判断上一步的复合短语是否包含特征词,所谓特征词,是指在科技类复合短语中反复出现的一类词语,而在其他命名实体中极少出现的一类词语。将含有特征词的复合短语作为识别的科技类复合短语结果。整个流程如图1所示:
科技类复合短语在上下文中词语转移之间的冗余度低的特性,无法直接采用字面值作为隐式马尔科夫模型输入显状态。在这里采用词性标注状态作为输入的显状态。当输入的显状态对应的分词命中上文提示词词典、下文提示词词典和维基百科条目,此时将其默认的词性标注显状态置换为表1中规定的值。其中上文与下文提示词词典为实现通过启发式规则建立。修改后的显状态序列作为隐式马尔科夫训练与预测的输入序列。在隐式马尔科夫模型输出预测序列中,和候选词语识别左右边界采用表2中规定的前缀、后缀以及核心成分在序列中对应的最大边界。当一段序列以上述三者开头以及结束,中间为表2中除非项目成分中的其他状态,将这样的序列截取作为候选的复合短语。
表1上下文指示词词典和维基百科词典显状态、隐状态例子
表2复合科技名词短语角色标注成分
在切分后的候选科技复合短语实体中,需要对候选的集合进行判断。注意到科技类科技复合短语中包含一类特殊的高频词语、例如上述短语中的“技术”、“研究”和“应用”。我们将这一类词语称为科技复合短语的特征词。特征词集合规模过大会导致过匹配非复合短语。而特征词集合规模过小又会导致遗漏。为了解决上述问题,我们基于最小集合覆盖问题,进行特征词集合的生成。所谓最小集合覆盖,是指给定全集U,以及一个包含n个U的子集且这n个子集的并集为全集U,这些子集本身作为集合S的元素。集合覆盖问题是要找到集合S中最小的子集S′,使得集合S′中元素的并集等于全集U,并且S′的规模最小。给定科技名词短语集合,记训练集为P={p1,p2,...,pn},其中pi为第i条文本标题。通过对P进行分词处理后可以获取一个词典数据W={w1,w2,...,wm},其中wi为词典中第i个单词。关系类型的特征词提取可以转化为在词典W中寻找一个满足最小覆盖的子集S′,使得S′满足:
1.集合S′能够覆盖集合P,即集合P的每条语料pi中至少有一个单词在S中出现;
2.S′中元素个数最小。由于求解最小集合覆盖问题是一个NP-hard问题。这里采用贪心算法求解特征词的覆盖问题。
将求解训练集P的最小覆盖单词集S′问题记为WLAN(Words with the LeAstNumber)。定理1可以证明WLAN问题是一个NP难问题
定理1.WLAN问题是NP-hard难题。
证明:对于每个单词w∈W,可以构造一个语料集其中A(w)表示所有含有单词w的语料集合。记A(W)={A(w1),A(w2),...,A(wm)},显然A(W)是P的一个覆盖,即经典的最小集合覆盖问题为寻找一个集合满足∪AS=p且AS最小。而训练集P的最小覆盖集AS分词后得到的单词集即WLAN问题的解。由此可知,WLAN问题与经典的最小集合覆盖问题是等价的,而最小集合覆盖问题是NP-hard问题,因此WLAN也是一个NP-hard问题。
本发明通过以下方法求解特征词的最小覆盖集合。通过训练集P和词典W可以构造一个m×n维的二值矩阵M(由图2所示),Mij为矩阵M的第i行第j列元素,若词典中第i个单词wi在pj中出现过则Mij=1,否则Mij=0。定义二元运算符 计算结果为去掉矩阵M中第i行以及第i行中所有非0元素所在的列,组成的新矩阵。以图2为例,P={p1,p2,p3}为三条同类型的标题语料,分词后得到含有4个单词的词典W={w1,w2,w3,w4},构造矩阵M。如果选择单词w2,则的计算结果为删除M的第2行和第2行中非零元素M22所在的第2列,得到矩阵M′。利用运算符以使用动态规划的方法来求得问题的最优解。专利中采用贪心算法计算问题的近似最优解,计算过程如下:
构造布尔矩阵M,对训练语料中所有科技复合短语看作矩阵M的列向量,对于训练语料中所有科技复合短语中所有的分词构成矩阵M的列向量。若一个单词在某条科技复合短语中出现,则把其对应结果置为1。
矩阵M作为初始输入值,令单词集
选择M中1数量最多的一行,假设为第i行(矩阵第i行对应的就是第i个单词wi),计算S′=S′∪wi
并将其作为下一步输入;
重复上述两个步骤直到M为空矩阵为止,此时单词集S′即所求的最小覆盖集。
本发明针对科技类复合名词短语自身的特点,通过设置上下文词典、维基百科词典以及表1和表2中设定的隐状态和显状态,通过表1中规定的显状态自动置换,通过隐式马尔科夫模型预测生成的序列中,通过表2中定义的候选复合名词短语的边界,从而达到候选科技类复合短语的识别。通过最小集覆盖的思想获取,实现了候选科技复合名词短语的自动预提取。其中上下文词典是通过启发式规则编制,维基百科词典通过JPWL开发包,对维基百科条目名称做提取并导出得到。
本发明根据复合短语特征词中富含特征词这一重要特性,采用了特征词来实现候选科技复合名词短语的最终识别。本专利采用了最小集合覆盖的思想,来获得合适规模的特征词集合。
与现有技术相比,本发明的有益效果:
在测试数据集上,本算法专利取得了48.8%的查全率,47.8%的查准率以及48.3的F1测度。另外本算法在进行算法标注的时候,采取了上下文显状态与隐状态自动置换。另外在自动判定候选边界切分的方法上采用了特征词匹配,采用了最小覆盖的思想构建特征词集合,该过程不需要人工标注。基于以上两点,一定程度上缓解了角色标注的巨大人工成本代价。
附图说明
图1为命名实体识别处理流程;
图2为二元运算计算示意图;
图3为特征词词频曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
以输入语料“我校参与完成的项目‘两系法杂交水稻技术研究与应用’与获得国家科技进步一等奖”为例”,处理流程首先对整句话进行分词与词性标注,得到词性标注序列“我校/r参与/v完成/v的/ude1项目/n"/wyz两/m系/n法/b杂交水稻/wiki技术/n研究/vn与/cc应用/vn"/wyy与/cc获得/v国家/wiki科技/wiki进步/vn一等奖/n”。利用词性标注序列自动置换对应的显状态序列:<r>我校</r><CAO>参与</CAO><CAO>完成</CAO><ude1>的</ude1><WIO>科技</WIO><n>项目</n><wyz>"</wyz><m>两</m><n>系</n><b>法</b><WIO>杂交水稻</WIO><n>技术</n><vn>研究</vn><cc>与</cc><vn>应用</vn><wyy>"</wyy><cc>与</cc><CBO>获得</CBO><WIO>国家<WIO><WIO>科技</WIO><vn>进步</vn><n>一等奖</n>。该序列作为隐式马尔科夫模型的输入模型,通过维特比算法得到预测输出的隐状态:<N>我校</N><CAS>参与</CAS><CAS>完成</CAS><N_AB>的</N_AB><N_AB>科技</N_AB><N_AB>项目</N_AB><SP>"</SP><CWP>两</CWP><CWP>系</CWP><CWP>法</CWP><CW>杂交水稻</CW><CWS>技术</CWS><CWS>研究</CWS><CCLL>与</CCLL><CWS>应用</CWS><SP>"</SP><CBS>获得</CBS><N>国家</N><N>科技</N><N>进步</N><N>一等奖</N>。在序列中,由表2定义的前缀、后缀以及核心成分的最大边界,其对应的序列为:<CWP>两</CWP><CWP>系</CWP><CWP>法</CWP><CW>杂交水稻</CW><CWS>技术</CWS><CWS>研究</CWS><CCLL>与</CCLL><CWS>应用</CWS>。故提取序列“两系法杂交水稻技术研究与应用“作为候选复合实体短语。由于其中包含特征词“技术”与“研究”,故其匹配为科技复合短语。
本文采用最小覆盖的算法产生特征词。特征词的训练集合来源为训练集来源与8所高校的1119个国家自然科学基金。图3表示所有特征词按照词频降序的曲线。如图3,当特征词规模大于72时,可以看到特征词覆盖规模呈幂律分布减小,这表明随着高频特征词往往数量有限,在获取一定规模的特征词,就可以有效避免误匹配科技复合名词短语。我们在这里将特征词的词频规模设置为72。
我们利用包含从2005年到2014年的获得国家科技进步奖的1522个获奖项目的文本作为种子,爬取并选取679条数据作为实验数据。本文将其中146条数据按照表2和进行角色标注,剩余的533条语料作为测试数据。本文的实验结果显示,基于层叠隐式马尔科夫链模型取得了81.1%的准确率,90.1%的召回率以及85.3%的F1值。与不采用上下文词典与维基百科角色标注、以及特征词词典,基于表2中中角色标注的单层隐士马尔科夫模型,层叠隐士马尔科夫模型提高了20.7%的准确率,10.1%的召回率和16.5%的F1值。

Claims (9)

1.一种基于隐式马尔科夫模型的复合短语识别方法,其步骤为:
1)采用词性标注工具对输入语料进行词性标注和分词;
2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;
3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的复合短语。
2.如权利要求1所述的方法,其特征在于,生成所述特征词集合的方法为:选取一科技名词短语集合,记训练集为P={p1,p2,...,pn},其中pn为第n条文本标题;对该集合P进行分词处理,获取一词典数据W={w1,w2,...,wm},其中wm为词典中第m个单词;然后在该词典W中寻找一个满足最小覆盖的子集S′,使得S′满足:集合S能够覆盖集合P,即集合P的每条语料pi中至少有一个单词在S中出现;以及集合S中元素个数最小;然后将得到的子集S′作为所述特征词集合。
3.如权利要求2所述的方法,其特征在于,采用贪心算法在词典W中寻找一个满足最小覆盖的子集S′。
4.如权利要求2或3所述的方法,其特征在于,在该词典W中寻找一个满足最小覆盖的子集S′的方法为:
a)利用训练集P和词典W构造一个m×n维的二值矩阵M,其中,该二值矩阵M中的元素Mij为矩阵M的第i行第j列元素;若词典W中第i个单词wi在训练集P中的第j条文本标题pj中出现过,则令Mij=1,否则Mij=0;
b)选择该矩阵M中1数量最多的一行,记为第i行,计算S′=S′∪wi其中,为二元运算符,计算结果为去掉矩阵M中第i行以及第i行中所有非0元素所在的列,更新矩阵M;
c)重复步骤b),直到该矩阵M为空矩阵,此时单词集S′即所求的最小覆盖集S′。
5.如权利要求4所述的方法,其特征在于,构造该二值矩阵M的方法为:将训练集P中每一短语为矩阵M的一列向量,训练集P中各短语的所有分词构成矩阵M的行向量。
6.如权利要求1所述的方法,其特征在于,采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测的方法为:将词性标注状态作为输入隐式马尔科夫模型的显状态;当输入显状态对应的分词命中上文提示词词典、下文提示词词典或维基百科条目时,将该分词的词性标注显状态置换为命中对象对应的设定值。
7.如权利要求1或6所述的方法,其特征在于,当该状态序列中的一段序列以前缀开头,中间为核心成分,以后缀结束,则将该段序列截取作为一复合短语。
8.如权利要求6所述的方法,其特征在于,通过启发式规则建立所述上文提示词词典、下文提示词词典。
9.如权利要求1或2或3所述的方法,其特征在于,所述特征词为科技类复合短语中的高频词。
CN201610912585.3A 2016-10-19 2016-10-19 一种基于隐式马尔科夫模型的科技类复合短语识别方法 Active CN106569997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610912585.3A CN106569997B (zh) 2016-10-19 2016-10-19 一种基于隐式马尔科夫模型的科技类复合短语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610912585.3A CN106569997B (zh) 2016-10-19 2016-10-19 一种基于隐式马尔科夫模型的科技类复合短语识别方法

Publications (2)

Publication Number Publication Date
CN106569997A true CN106569997A (zh) 2017-04-19
CN106569997B CN106569997B (zh) 2019-12-10

Family

ID=58533036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610912585.3A Active CN106569997B (zh) 2016-10-19 2016-10-19 一种基于隐式马尔科夫模型的科技类复合短语识别方法

Country Status (1)

Country Link
CN (1) CN106569997B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778222A (ja) * 1992-12-17 1995-03-20 Xerox Corp キーワードのモデル化方法及び非キーワードhmmの提供方法
CN101093504A (zh) * 2006-03-24 2007-12-26 国际商业机器公司 用于提取新复合词的系统和方法
CN101187921A (zh) * 2007-12-20 2008-05-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN101477518A (zh) * 2009-01-09 2009-07-08 昆明理工大学 基于条件随机场的旅游领域命名实体识别方法
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN102169591A (zh) * 2011-05-20 2011-08-31 中国科学院计算技术研究所 一种制图中文本注记分行方法以及绘制方法
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN104794169A (zh) * 2015-03-30 2015-07-22 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN104965818A (zh) * 2015-05-25 2015-10-07 中国科学院信息工程研究所 一种基于自学习规则的项目名实体识别方法及系统
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778222A (ja) * 1992-12-17 1995-03-20 Xerox Corp キーワードのモデル化方法及び非キーワードhmmの提供方法
CN101093504A (zh) * 2006-03-24 2007-12-26 国际商业机器公司 用于提取新复合词的系统和方法
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN101187921A (zh) * 2007-12-20 2008-05-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN101477518A (zh) * 2009-01-09 2009-07-08 昆明理工大学 基于条件随机场的旅游领域命名实体识别方法
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN102169591A (zh) * 2011-05-20 2011-08-31 中国科学院计算技术研究所 一种制图中文本注记分行方法以及绘制方法
CN104794169A (zh) * 2015-03-30 2015-07-22 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN104965818A (zh) * 2015-05-25 2015-10-07 中国科学院信息工程研究所 一种基于自学习规则的项目名实体识别方法及系统
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUI NING ET AL: "A Method Integrating Rule and HMM for Chinese Part-of-speech Tagging", 《IEEE》 *
周凡坤: "面向领域的文本信息抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李荣 等: "基于遗传算法的隐马尔可夫模型在名词短语识别中的应用研究", 《计算机科学》 *
袁劲松 等: "术语自动抽取方法研究综述", 《计算机科学》 *
闫旸 等: "面向文本标题的人物关系抽取", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN109299469B (zh) * 2018-10-29 2023-05-02 复旦大学 一种在长文本中识别复杂住址的方法
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备
CN114492426B (zh) * 2021-12-30 2023-04-07 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Also Published As

Publication number Publication date
CN106569997B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106484664B (zh) 一种短文本间相似度计算方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN107315738B (zh) 一种文本信息的创新度评估方法
CN109918680A (zh) 实体识别方法、装置及计算机设备
CN108763213A (zh) 主题特征文本关键词提取方法
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN106095865A (zh) 一种商标文本相似性评审方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN106598950A (zh) 一种基于混合层叠模型的命名实体识别方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN109344187A (zh) 一种司法判决书案情信息结构化处理系统
CN108776653A (zh) 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN109684449A (zh) 一种基于注意力机制的自然语言语义表征方法
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN101645083A (zh) 一种基于概念符号的文本领域的获取系统及方法
CN110175221A (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN110175585A (zh) 一种简答题自动批改系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant