CN108170674A - 词性标注方法和装置、程序产品及存储介质 - Google Patents
词性标注方法和装置、程序产品及存储介质 Download PDFInfo
- Publication number
- CN108170674A CN108170674A CN201711446486.1A CN201711446486A CN108170674A CN 108170674 A CN108170674 A CN 108170674A CN 201711446486 A CN201711446486 A CN 201711446486A CN 108170674 A CN108170674 A CN 108170674A
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- terms
- chinese
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提出一种词性标注方法以及装置,其中方法包括:对待标注文本进行分词,获取待标注文本的分词结果;将分词结果中的中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中词语属于各个词性的第一概率;字向量模型用于获取中文词语序列中每个字对应的向量;词性为各个领域中的类目词语;将中文词语序列输入隐马尔可夫模型,获取每个词语属于各个词性的第二概率;根据每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的关系对词语词性的影响,从而提高了词性标注的准确度和效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种词性标注方法和装置、程序产品及存储介质。
背景技术
目前,在对文本进行词性标注时,主要将文本分词得到的词语输入分类模型,例如支持向量机模型(Support Vector Machine,SVM)、随机森林模型(Random Forest)、逻辑回归模型(Logistic Regression)等,得到词语对应的词性。然而,上述词性标注方法中,涉及到的词性一般为名词、动词等词性,未涉及到特殊领域所需要的专属词性,专属词性指的是特殊领域中各个专业术语对应的类目词语,例如医疗领域中“鼻腔”、“口腔”、“脊背”、“双耳”等专业术语对应的类目词语“身体部位”;又例如“肿瘤”、“癌症”、“鼻咽癌”等专业术语对应的类目词语“疾病”;“希罗达”、“牛黄解毒丸”、“阿莫西林”等专业术语对应的类目词语“药品”等。导致上述词性标注方法,难以适用于对专属词性的标注,导致用户难以获取到与专属词性相关的文本数据,例如与肿瘤相关的文本数据等,从而降低了文本数据的使用效率,降低了用户的使用体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种词性标注方法,用于解决现有技术中难以对文本数据进行专属词性标注的问题。
本发明的第二个目的在于提出一种词性标注装置。
本发明的第三个目的在于提出另一种词性标注装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种词性标注方法,包括:
对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
进一步的,所述将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率,包括:
获取所述中文词语序列中的各个字;
将所述各个字输入字向量模型,获取各个字对应的向量;
针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量;
将所述中文词语序列中各个词语对应的向量输入所述分类模型,获取所述词语属于各个词性的第一概率。
进一步的,所述针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量,包括:
针对所述中文词语序列中的每个词语,将所述词语所包括的各个字对应的向量进行求和,得到所述词语对应的向量。
进一步的,所述根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性,包括:
针对所述中文词语序列中的每个词语,将所述词语属于第一词性的第一概率与所述词语属于第一词性的第二概率进行乘积运算,得到所述词语属于第一词性的第三概率;所述第一词性为所述词性中的任一词性;
根据所述词语属于各个词性的第三概率,确定所述词语对应的词性。
进一步的,所述将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率之前,还包括:
获取样本数据,所述样本数据中包括:样本文本,所述样本文本对应的分词结果,以及所述分词结果的中文词语序列中各中文词语的词性;
根据所述样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
进一步的,所述的方法还包括:
获取所述样本数据中各个词语对应的向量;
将所述样本数据中各个词语对应的向量添加到所述样本数据中,得到修改后的样本数据;
根据所述修改后的样本数据对初始的分类模型进行训练,得到所述分类模型。
进一步的,所述字向量模型为Word2vec模型;
所述分类模型为Softmax回归模型。
本发明实施例的词性标注方法,通过对待标注文本进行分词,获取待标注文本的分词结果中的中文词语序列;将中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中每个词语属于各个词性的第一概率;词性为各个领域中的类目词语;字向量模型用于获取中文词语序列中每个字对应的向量;将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率;根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的相互关系对词语词性的影响,提高了词性标注的准确度和效率,且词性为各个领域中的类目词语,使得基于标注结果用户能够获取到与各个类目词语相关的文本数据,提高了文本数据使用效率,提高了用户的使用体验。
为达上述目的,本发明第二方面实施例提出了一种词性标注装置,包括:
分词模块,用于对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
输入模块,用于将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
所述输入模块,还用于将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
确定模块,用于根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
进一步的,所述输入模块包括:
获取单元,用于获取所述中文词语序列中的各个字;
输入单元,用于将所述各个字输入字向量模型,获取各个字对应的向量;
确定单元,用于针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量;
所述输入单元,还用于将所述中文词语序列中各个词语对应的向量输入所述分类模型,获取所述词语属于各个词性的第一概率。
进一步的,所述确定单元具体用于,针对所述中文词语序列中的每个词语,将所述词语所包括的各个字对应的向量进行求和,得到所述词语对应的向量。
进一步的,所述确定模块具体用于,
针对所述中文词语序列中的每个词语,将所述词语属于第一词性的第一概率与所述词语属于第一词性的第二概率进行乘积运算,得到所述词语属于第一词性的第三概率;所述第一词性为所述词性中的任一词性;
根据所述词语属于各个词性的第三概率,确定所述词语对应的词性。
进一步的,所述的装置还包括:获取模块和训练模块;
所述获取模块,用于获取样本数据,所述样本数据中包括:样本文本,所述样本文本对应的分词结果,以及所述分词结果的中文词语序列中各中文词语的词性;
所述训练模块,用于根据所述样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
进一步的,所述的装置还包括:添加模块;
所述获取模块,还用于获取所述样本数据中各个词语对应的向量;
所述添加模块,用于将所述样本数据中各个词语对应的向量添加到所述样本数据中,得到修改后的样本数据;
所述训练模块,还用于根据所述修改后的样本数据对初始的分类模型进行训练,得到所述分类模型。
进一步的,所述字向量模型为Word2vec模型;
所述分类模型为Softmax回归模型。
本发明实施例的词性标注装置,通过对待标注文本进行分词,获取待标注文本的分词结果中的中文词语序列;将中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中每个词语属于各个词性的第一概率;词性为各个领域中的类目词语;字向量模型用于获取中文词语序列中每个字对应的向量;将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率;根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的相互关系对词语词性的影响,提高了词性标注的准确度和效率,且词性为各个领域中的类目词语,使得基于标注结果用户能够获取到与各个类目词语相关的文本数据,提高了文本数据使用效率,提高了用户的使用体验。
为达上述目的,本发明第三方面实施例提出了另一种词性标注装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的词性标注方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令被处理器执行时,实现如上所述的方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种词性标注方法,所述方法包括:
对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种词性标注方法的流程示意图;
图2为用户手动对文本进行分词的示意图;
图3为本发明实施例提供的另一种词性标注方法的流程示意图;
图4为本发明实施例提供的一种词性标注装置的结构示意图;
图5为本发明实施例提供的另一种词性标注装置的结构示意图;
图6为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的词性标注方法以及装置。
图1为本发明实施例提供的一种词性标注方法的流程示意图。如图1所示,该词性标注方法包括以下步骤:
S101、对待标注文本进行分词,获取待标注文本的分词结果,分词结果中包括:中文词语序列。
本发明提供的词性标注方法的执行主体为词性标注装置,词性标注装置具体可以为对文本中各词语进行标注的硬件或者软件。词性标注方法的适用场景例如可以为,医疗场景、学术论文场景等场景中,例如,医疗场景中采用上述词性标注方法对电子病例进行词性标注,确定各电子病例中的疾病、药品、治疗方法等,从而基于与各词性相关的电子病例来确定某种疾病的有效治疗药品、有效治疗方法等。对应的,待标注文本例如可以为电子病例等。
本实施例中,词性标注装置在获取到待标注文本后,可以将待标注文本输入预设的分词模型,获取待标注文本的分词结果。例如,在待标注文本为“无明显诱因左侧腰背部疼痛”的情况下,待标注文本的分词结果中包括以下分词词语:“无”、“明显”、“诱因”、“左侧”、“腰”、“背部”、“疼痛”。本实施例中,中文词语序列可以为,由待标注文本中的各中文分词词语按照出现顺序组成的序列。例如,上述待标注文本的中文词语序列为“无、明显、诱因、左侧、腰、背部、疼痛”。
其中,词性标注装置在采用分词模型对待标注文本进行分词之前,可以先获取经过训练的分词模型。获取经过训练的分词模型的过程具体可以为,获取训练样本;训练样本中包括:大量的训练文本;用户手动对训练文本进行分词,获取分词样本;采用分词样本对初始的分词模型进行训练,得到训练后的分词模型。优选的,可以采用与待标注文本具有相同领域的训练样本。
例如,用户手动对训练文本进行分词的示意图可以如图2所示,在图2左侧的标注区域中,用户可以通过鼠标点选的方式对训练文本进行切分,得到分词样本。另外,在图2中右侧的词性列表中,也可以包括有可选的词性。
需要说明的是,本实施例中的词性,可以为用户在使用文本数据过程中,或者基于文本数据进行分析时所确定的类目词语。例如在文本数据为医疗领域中的电子病例时,用户一般需要基于电子病例,获取某种疾病的生病部位、疾病描述、治疗方案、治疗药物、治疗评价、检查项目等,从而分析某种疾病的有效治疗方案、有效治疗药物,以及根据生病部位、疾病描述等提前确定患者所患疾病等等,因此,词性可以为如图2中所示的“一般疾病”、“癌症疾病”、“部位”、“方位”、“药品”、“临床表现”、“医学解剖部位”、“程度”、“体格检查”、“化验检查”、“影像检查”、“其他检查”、“剂量”、“时间段”、“时间词”、“处置方式”、“肿瘤术语名词”、“肿瘤形容词”、“肿瘤检查”、“TNM分期”、“肿瘤术语动词”、“无关词”、“一般分期”、“治疗方案”、“否定词”、“连词”、“治疗评价”、“病史”、“不确定”、“大小”、“医学指标”、“疾病描述”、“趋势症状”、“身体部位补充说明”、“指标值”、“频次”等医生关心的类目词语。其中,属于词性的词语可以为词性词语的具体种类,例如,属于词性“处置方式”的词语可以为:放化疗、化疗、鼻咽癌放化疗等;属于词性“部位”的词语可以为:骨、腰、背部、骶骨等。
S102、将中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中每个词语属于各个词性的第一概率;字向量模型用于获取中文词语序列中每个字对应的向量;词性为各个领域中的类目词语。
本实施例中,由于组成不同词语的字的组合是有一定规律的,比如鼻腔、鼻梁、口腔、口鼻、脊梁、脊背、双耳、双腿等都是身体部位的词,都是由具有相同词性“部位”的多个字组合而成的。也就是说词语一般是由具有相同词性的多个字组合而成的。通过这个实现方式我们可以认为具有相同词性的字之间的距离比较接近。基于此,针对各个词性,可以对具有该词性的多个字进行唯一编码,使得每个字对应一个唯一向量,且具有相同词性的各个字之间的距离较近,进而使得由具有相同词性的多个字组合而成的词语之间的距离较近。本实施例中,可以采用字向量模型Word2vec来为各个词性对应的多个字进行唯一向量的分配,以及采用Word2vec模型确定输入的各个词语对应的向量。也就是说,词性标注装置将中文词语序列输入Word2vec模型中,Word2vec模型获取各个词语中的各个字对应的向量;对词语中的多个字对应的向量进行加和,得到词语对应的向量并输出。
本实施例中,针对具有相同词性的各个字,Word2vec模型是根据各个字之间的共现关系,也就是说,各个字出现在一起的频率或者概率等,来确定各个字之间的距离,进而为具有相同词性的各个字分配唯一向量。
本实施例中,词性标注装置在获取到中文词语序列中各个词语对应的向量后,可以将各个词语对应的向量输入分类模型;分类模型例如Softmax回归模型等,可以根据词语对应的向量确定词语在各个词性上的概率分布,进而得到词语属于各个词性的第一概率。
S103、将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率。
本实施例中,由于不同的词语之间的顺序关系对计算词语的词性有一定的影响。例如,在肿瘤病例领域,“症状”通常在之前伴随着一个“动词”,“TNM分期”之后一般伴随着一个“一般分期”。通过这种顺序关系,可以判断出词语的顺序对词语词性的确定有一定的影响,为了在进行词性标注时,结合考虑词语之间的顺序关系对词性的影响,本实施例中,结合隐马尔可夫模型获取中文词语序列中每个词语属于各个词性的第二概率。
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列得到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机模型,具有一定状态数的隐马尔可夫链和显示随机函数集。本实施例中,隐马尔可夫模型能够结合中文词语序列中各词语之间的顺序关系,计算出当前位置的词语属于各个词性的第二概率。
进一步的,本实施例中,步骤103之前,所述的方法还可以包括:获取样本数据,样本数据中包括:样本文本,样本文本对应的分词结果,以及分词结果中的中文词语序列中各中文词语的词性;根据样本数据对初始的隐马尔可夫模型进行训练,得到隐马尔可夫模型。
本实施例中,将样本数据输入到初始的隐马尔可夫模型后,初始的隐马尔可夫模型根据中文词语序列中各个词语的位置关系以及各个词语的词性建立观测向量序列,观测向量序列中包括各个词性之间的顺序关系。针对每个观测向量序列中的任意两个词性,根据样本数据中具有上述两个词性的词语的位置关系,确定两个词性之间的转移概率,即一个词性后面跟随另一个词性的概率,或者,一个词性之前有另一个词性的概率,从而得到大量的转移概率固定的马尔科夫链,进而得到训练好的隐马尔克夫模型。当词性标注装置将中文词语序列输入训练好的隐马尔可夫模型后,训练好的隐马尔可夫模型获取中文词语序列中各个词语的位置关系,根据各个词语的位置关系以及转移概率固定的多个马尔科夫链,确定词语属于各个词性的第二概率。
其中,样本数据例如可以为用户手动对图2中的样本进行分词以及标注的结果,包括:主诉/*-无关词:/*-无关词鼻咽癌/*-癌症疾病放化疗/*-处置方式后/*-无关词6年余/*-时间段,/*-null/*-2骨/*-部位转移/*-肿瘤术语动词治疗/*-处置方式后/*-无关词2年余/*-时间段现病史/*-无关词:/*-无关词患者/*-无关词2008年6月/*-时间词因/*-无关词确诊/*-无关词为/*-无关词鼻咽癌/*-癌症疾病t1n2m0/*-TNM分期Ⅲ期/*-一般分期,/*--null/*-2于/*-无关词广州市第一人民医院/*-无关词行/*-无关词鼻咽癌放化疗/*-处置方式(/*-无关词pf方案/*-治疗方案化疗/*-处置方式4程/*-时间段,/*-null/*-2末次/*-无关词化疗/*-处置方式时间/*-无关词2008-09-17/*-时间词,/*-null/*-2具体/*-无关词放疗/*-处置方式剂量/*-无关词及/*-无关词疗效/*-无关词评价/*-无关词不详/*-无关词)/*-无关词。/*-无关词。
S104、根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性。
具体的,词性标注装置执行步骤104的过程具体可以为,针对中文词语序列中的每个词语,将词语属于第一词性的第一概率与词语属于第一词性的第二概率进行乘积运算,得到词语属于第一词性的第三概率;第一词性为词性中的任一词性;根据词语属于各个词性的第三概率,确定词语对应的词性。其中,词性标注装置可以将对应的第三概率最大的词性确定为词语对应的词性。
例如,词语属于各个词性的第三概率的计算公式可以如以下公式(1)所示。
其中,newWord表示词语;POS表示词性;POSi表示第i个词性;表示词语属于各个词性的第三概率;POSVector(newWord)i表示词语属于各个词性的第一概率;P(newWord|POSi)表示词语属于各个词性的第二概率。
本发明实施例的词性标注方法,通过对待标注文本进行分词,获取待标注文本的分词结果中的中文词语序列;将中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中每个词语属于各个词性的第一概率;词性为各个领域中的类目词语;字向量模型用于获取中文词语序列中每个字对应的向量;将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率;根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的相互关系对词语词性的影响,提高了词性标注的准确度和效率,且词性为各个领域中的类目词语,使得基于标注结果用户能够获取到与各个类目词语相关的文本数据,提高了文本数据使用效率,提高了用户的使用体验。
图3为本发明实施例提供的另一种词性标注方法的流程示意图。如图3所示,在图1所示实施例的基础上,步骤102可以包括以下步骤:
S1021、获取中文词语序列中的各个字。
S1022、将各个字输入字向量模型,获取各个字对应的向量。
本实施例中,在步骤1022之前,词性标注装置可以先获取初始的Word2vec模型,对初始的Word2vec模型进行训练。对初始的Word2vec模型进行训练的过程具体可以为,将文本中可能出现的所有字,以及各个字的词性输入Word2vec模型,对Word2vec模型进行训练,使得Word2vec模型针对每个字输出唯一的向量,且相同词性的字对应的向量之间的距离较近,不同词性的字对应的向量之间的距离较远。对应的,在步骤1022中,词性标注装置可以将各个字输入Word2vec模型,Word2vec模型输出各个字对应的向量。例如,“鼻”字对应的向量为[0.01,0.02,0.03,0.04…],“腔”字对应的向量为[0.03,0.02,0.05,0.01…]。
S1023、针对中文词语序列中的每个词语,根据词语所包括的各个字对应的向量,确定词语对应的向量。
具体的,本实施例中,针对中文词语序列中的每个词语,词性标注装置可以将词语所包括的各个字对应的向量进行求和,得到词语对应的向量。例如,“鼻腔”对应的向量可以为[0.04,0.04,0.08,0.05…],其中每个维度的值为“鼻”字和“腔”字对应的向量中对应维度的求和。
S1024、将中文词语序列中各个词语对应的向量输入分类模型,获取词语属于各个词性的第一概率。
进一步的,本实施例中,步骤102之前,所述的方法还可以包括:获取样本数据,样本数据中包括:样本文本,样本文本对应的分词结果,以及分词结果中的中文词语序列中各中文词语的词性;获取样本数据中各个词语对应的向量;将各个词语对应的向量添加到样本数据中,得到修改后的样本数据;根据修改后的样本数据对初始的分类模型进行训练,得到分类模型。
本发明实施例的词性标注方法,通过对待标注文本进行分词,获取待标注文本的分词结果中的中文词语序列;获取中文词语序列中的各个字;将各个字输入字向量模型,获取各个字对应的向量;针对中文词语序列中的每个词语,根据词语所包括的各个字对应的向量,确定词语对应的向量;将中文词语序列中各个词语对应的向量输入分类模型,获取词语属于各个词性的第一概率,将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率;根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的相互关系对词语词性的影响,提高了词性标注的准确度和效率,且词性为各个领域中的类目词语,使得基于标注结果用户能够获取到与各个类目词语相关的文本数据,提高了文本数据使用效率,提高了用户的使用体验。
图4为本发明实施例提供的一种词性标注装置的结构示意图。如图4所示,包括:分词模块41、输入模块42和确定模块43。
其中,分词模块41,用于对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
输入模块42,用于将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
所述输入模块42,还用于将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
确定模块43,用于根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
本实施例中,词性标注装置在获取到待标注文本后,可以将待标注文本输入预设的分词模型,获取待标注文本的分词结果。例如,在待标注文本为“无明显诱因左侧腰背部疼痛”的情况下,待标注文本的分词结果中包括以下分词词语:“无”、“明显”、“诱因”、“左侧”、“腰”、“背部”、“疼痛”。本实施例中,中文词语序列可以为,由待标注文本中的各中文分词词语按照出现顺序组成的序列。例如,上述待标注文本的中文词语序列为“无、明显、诱因、左侧、腰、背部、疼痛”。
其中,词性标注装置在采用分词模型对待标注文本进行分词之前,可以先获取经过训练的分词模型。获取经过训练的分词模型的过程具体可以为,获取训练样本;训练样本中包括:大量的训练文本;用户手动对训练文本进行分词,获取分词样本;采用分词样本对初始的分词模型进行训练,得到训练后的分词模型。优选的,可以采用与待标注文本具有相同领域的训练样本。
例如,用户手动对训练文本进行分词的示意图可以如图2所示,在图2中左侧的标注区域中,用户可以通过鼠标点选的方式对训练文本进行切分,得到分词样本。另外,在图2中右侧的词性列表中,也可以包括有可选的词性。
需要说明的是,本实施例中的词性,可以为用户在使用文本数据过程中,或者基于文本数据进行分析时所确定的类目词语。例如在文本数据为医疗领域中的电子病例时,用户一般需要基于电子病例,获取某种疾病的生病部位、疾病描述、治疗方案、治疗药物、治疗评价、检查项目等,从而分析某种疾病的有效治疗方案、有效治疗药物,以及根据生病部位、疾病描述等提前确定患者所患疾病等等,因此,词性可以为如图2中所示的“一般疾病”、“癌症疾病”、“部位”、“方位”、“药品”、“临床表现”、“医学解剖部位”、“程度”、“体格检查”、“化验检查”、“影像检查”、“其他检查”、“剂量”、“时间段”、“时间词”、“处置方式”、“肿瘤术语名词”、“肿瘤形容词”、“肿瘤检查”、“TNM分期”、“肿瘤术语动词”、“无关词”、“一般分期”、“治疗方案”、“否定词”、“连词”、“治疗评价”、“病史”、“不确定”、“大小”、“医学指标”、“疾病描述”、“趋势症状”、“身体部位补充说明”、“指标值”、“频次”等医生关心的类目词语。其中,属于词性的词语可以为词性词语的具体种类,例如,属于词性“处置方式”的词语可以为:放化疗、化疗、鼻咽癌放化疗等;属于词性“部位”的词语可以为:骨、腰、背部、骶骨等。
本实施例中,由于组成不同词语的字的组合是有一定规律的,比如鼻腔、鼻梁、口腔、口鼻、脊梁、脊背、双耳、双腿等都是身体部位的词,都是由具有相同词性“部位”的多个字组合而成的。也就是说词语一般是由具有相同词性的多个字组合而成的。通过这个实现方式我们可以认为具有相同词性的字之间的距离比较接近。基于此,针对各个词性,可以对具有该词性的多个字进行唯一编码,使得每个字对应一个唯一向量,且具有相同词性的各个字之间的距离较近,进而使得由具有相同词性的多个字组合而成的词语之间的距离较近。本实施例中,可以采用字向量模型Word2vec来为各个词性对应的多个字进行唯一向量的分配,以及采用Word2vec模型确定输入的各个词语对应的向量。也就是说,词性标注装置将中文词语序列输入Word2vec模型中,Word2vec模型获取各个词语中的各个字对应的向量;对词语中的多个字对应的向量进行加和,得到词语对应的向量并输出。
本实施例中,针对具有相同词性的各个字,Word2vec模型是根据各个字之间的共现关系,也就是说,各个字出现在一起的频率或者概率等,来确定各个字之间的距离,进而为具有相同词性的各个字分配唯一向量。
本实施例中,词性标注装置在获取到中文词语序列中各个词语对应的向量后,可以将各个词语对应的向量输入分类模型;分类模型例如Softmax回归模型等,可以根据词语对应的向量确定词语在各个词性上的概率分布,进而得到词语属于各个词性的第一概率。
进一步的,在图4所示实施例的基础上,所述的装置还包括:获取模块和训练模块;
所述获取模块,用于获取样本数据,所述样本数据中包括:样本文本,所述样本文本对应的分词结果,以及所述分词结果的中文词语序列中各中文词语的词性;
所述训练模块,用于根据所述样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
本实施例中,将样本数据输入到初始的隐马尔可夫模型后,初始的隐马尔可夫模型根据中文词语序列中各个词语的位置关系以及各个词语的词性建立观测向量序列,观测向量序列中包括各个词性之间的顺序关系。针对每个观测向量序列中的任意两个词性,根据样本数据中具有上述两个词性的词语的位置关系,确定两个词性之间的转移概率,即一个词性后面跟随另一个词性的概率,或者,一个词性之前有另一个词性的概率,从而得到大量的转移概率固定的马尔科夫链,进而得到训练好的隐马尔克夫模型。当词性标注装置将中文词语序列输入训练好的隐马尔可夫模型后,训练好的隐马尔可夫模型获取中文词语序列中各个词语的位置关系,根据各个词语的位置关系以及转移概率固定的多个马尔科夫链,确定词语属于各个词性的第二概率。
进一步的,在图4所示实施例的基础上,所述确定模块43具体用于,针对所述中文词语序列中的每个词语,将所述词语属于第一词性的第一概率与所述词语属于第一词性的第二概率进行乘积运算,得到所述词语属于第一词性的第三概率;所述第一词性为所述词性中的任一词性;根据所述词语属于各个词性的第三概率,确定所述词语对应的词性。
本发明实施例的词性标注装置,通过对待标注文本进行分词,获取待标注文本的分词结果中的中文词语序列;将中文词语序列依次输入字向量模型以及分类模型,获取中文词语序列中每个词语属于各个词性的第一概率;词性为各个领域中的类目词语;字向量模型用于获取中文词语序列中每个字对应的向量;将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率;根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的相互关系对词语词性的影响,提高了词性标注的准确度和效率,且词性为各个领域中的类目词语,使得基于标注结果用户能够获取到与各个类目词语相关的文本数据,提高了文本数据使用效率,提高了用户的使用体验。
图5为本发明实施例提供的另一种词性标注装置的结构示意图。如图5所示,在图4所示实施例的基础上,所述输入模块42包括:获取单元421、输入单元422和确定单元423。
其中,获取单元421,用于获取所述中文词语序列中的各个字;
输入单元422,用于将所述各个字输入字向量模型,获取各个字对应的向量;
确定单元423,用于针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量;
所述输入单元422,还用于将所述中文词语序列中各个词语对应的向量输入所述分类模型,获取所述词语属于各个词性的第一概率。
本实施例中,词性标注装置可以先获取初始的Word2vec模型,对初始的Word2vec模型进行训练。对初始的Word2vec模型进行训练的过程具体可以为,将文本中可能出现的所有字,以及各个字的词性输入Word2vec模型,对Word2vec模型进行训练,使得Word2vec模型针对每个字输出唯一的向量,且相同词性的字对应的向量之间的距离较近,不同词性的字对应的向量之间的距离较远。对应的,输入模块422具体可以用于将各个字输入Word2vec模型,Word2vec模型输出各个字对应的向量。例如,“鼻”字对应的向量为[0.01,0.02,0.03,0.04…],“腔”字对应的向量为[0.03,0.02,0.05,0.01…]。
具体的,本实施例中,针对中文词语序列中的每个词语,词性标注装置可以将词语所包括的各个字对应的向量进行求和,得到词语对应的向量。例如,“鼻腔”对应的向量可以为[0.04,0.04,0.08,0.05…],其中每个维度的值为“鼻”字和“腔”字对应的向量中对应维度的求和。
进一步的,在图5所示实施例的基础上,所述的装置还包括:添加模块;
所述获取模块,还用于获取所述样本数据中各个词语对应的向量;
所述添加模块,用于将所述样本数据中各个词语对应的向量添加到所述样本数据中,得到修改后的样本数据;
所述训练模块,还用于根据所述修改后的样本数据对初始的分类模型进行训练,得到所述分类模型。
本发明实施例的词性标注装置,通过对待标注文本进行分词,获取待标注文本的分词结果中的中文词语序列;获取中文词语序列中的各个字;将各个字输入字向量模型,获取各个字对应的向量;针对中文词语序列中的每个词语,根据词语所包括的各个字对应的向量,确定词语对应的向量;将中文词语序列中各个词语对应的向量输入分类模型,获取词语属于各个词性的第一概率,将中文词语序列输入隐马尔可夫模型,获取中文词语序列中每个词语属于各个词性的第二概率;根据中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定中文词语序列中各个词语对应的词性,其中,结合隐马尔可夫模型考虑了词语之间的顺序关系对词语词性的影响,结合字向量模型和分类模型考虑了词语中字之间的相互关系对词语词性的影响,提高了词性标注的准确度和效率,且词性为各个领域中的类目词语,使得基于标注结果用户能够获取到与各个类目词语相关的文本数据,提高了文本数据使用效率,提高了用户的使用体验。
为了实现上述实施例,本发明还提出另一种词性标注装置,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器执行所述程序时实现上述实施例中提供的词性标注方法。
为了实现上述实施例,本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的词性标注方法。
为了实现上述实施例,本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种词性标注方法,所述方法包括:
对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备72仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备72以通用计算设备的形式表现。计算机设备72的组件可以包括但不限于:一个或者多个处理器或者处理单元76,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元76)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备72典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备72访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器62。计算机设备72可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统64可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块32的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块32包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块32通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备72也可以与一个或多个外部设备74(例如键盘、指向设备、显示器54等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器72交互的设备通信,和/或与使得该计算机系统/服务器72能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口52进行。并且,计算机设备72还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备72的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备72使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元76通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种词性标注方法,其特征在于,包括:
对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
2.根据权利要求1所述的方法,其特征在于,所述将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率,包括:
获取所述中文词语序列中的各个字;
将所述各个字输入字向量模型,获取各个字对应的向量;
针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量;
将所述中文词语序列中各个词语对应的向量输入所述分类模型,获取所述词语属于各个词性的第一概率。
3.根据权利要求2所述的方法,其特征在于,所述针对所述中文词语序列中的每个词语,根据所述词语所包括的各个字对应的向量,确定所述词语对应的向量,包括:
针对所述中文词语序列中的每个词语,将所述词语所包括的各个字对应的向量进行求和,得到所述词语对应的向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性,包括:
针对所述中文词语序列中的每个词语,将所述词语属于第一词性的第一概率与所述词语属于第一词性的第二概率进行乘积运算,得到所述词语属于第一词性的第三概率;所述第一词性为所述词性中的任一词性;
根据所述词语属于各个词性的第三概率,确定所述词语对应的词性。
5.根据权利要求1所述的方法,其特征在于,所述将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率之前,还包括:
获取样本数据,所述样本数据中包括:样本文本,所述样本文本对应的分词结果,以及所述分词结果的中文词语序列中各中文词语的词性;
根据所述样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
获取所述样本数据中各个词语对应的向量;
将所述样本数据中各个词语对应的向量添加到所述样本数据中,得到修改后的样本数据;
根据所述修改后的样本数据对初始的分类模型进行训练,得到所述分类模型。
7.一种词性标注装置,其特征在于,包括:
分词模块,用于对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
输入模块,用于将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
所述输入模块,还用于将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
确定模块,用于根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
8.一种词性标注装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的词性标注方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的词性标注方法。
10.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种词性标注方法,所述方法包括:
对待标注文本进行分词,获取所述待标注文本的分词结果,所述分词结果中包括:中文词语序列;
将所述中文词语序列依次输入字向量模型以及分类模型,获取所述中文词语序列中每个词语属于各个词性的第一概率;所述字向量模型用于获取所述中文词语序列中每个字对应的向量;所述词性为各个领域中的类目词语;
将所述中文词语序列输入隐马尔可夫模型,获取所述中文词语序列中每个词语属于各个词性的第二概率;
根据所述中文词语序列中每个词语属于各个词性的第一概率和第二概率,确定所述中文词语序列中各个词语对应的词性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711446486.1A CN108170674A (zh) | 2017-12-27 | 2017-12-27 | 词性标注方法和装置、程序产品及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711446486.1A CN108170674A (zh) | 2017-12-27 | 2017-12-27 | 词性标注方法和装置、程序产品及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108170674A true CN108170674A (zh) | 2018-06-15 |
Family
ID=62518075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711446486.1A Pending CN108170674A (zh) | 2017-12-27 | 2017-12-27 | 词性标注方法和装置、程序产品及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170674A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344406A (zh) * | 2018-09-30 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 词性标注方法、装置和电子设备 |
CN109388803A (zh) * | 2018-10-12 | 2019-02-26 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN109933788A (zh) * | 2019-02-14 | 2019-06-25 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN110147545A (zh) * | 2018-09-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 文本的结构化输出方法及系统、存储介质和计算机设备 |
CN110162681A (zh) * | 2018-10-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本识别、文本处理方法、装置、计算机设备和存储介质 |
CN110222328A (zh) * | 2019-04-08 | 2019-09-10 | 平安科技(深圳)有限公司 | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110347696A (zh) * | 2019-05-28 | 2019-10-18 | 平安科技(深圳)有限公司 | 数据转换方法、装置、计算机设备以及存储介质 |
CN110377899A (zh) * | 2019-05-30 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 一种确定词语词性的方法、装置及电子设备 |
CN110413773A (zh) * | 2019-06-20 | 2019-11-05 | 平安科技(深圳)有限公司 | 智能文本分类方法、装置及计算机可读存储介质 |
CN110489544A (zh) * | 2019-06-24 | 2019-11-22 | 厦门美域中央信息科技有限公司 | 一种基于马尔可夫链的语料库文本分类方法 |
CN110532391A (zh) * | 2019-08-30 | 2019-12-03 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN111353295A (zh) * | 2020-02-27 | 2020-06-30 | 广东博智林机器人有限公司 | 序列标注方法、装置、存储介质及计算机设备 |
CN111353308A (zh) * | 2018-12-20 | 2020-06-30 | 北京深知无限人工智能研究院有限公司 | 命名实体识别方法、装置、服务器及存储介质 |
CN111506726A (zh) * | 2020-03-18 | 2020-08-07 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112131873A (zh) * | 2020-09-30 | 2020-12-25 | 国网浙江省电力有限公司信息通信分公司 | 文本的词性标注方法及装置 |
WO2024077906A1 (zh) * | 2022-10-09 | 2024-04-18 | 京东科技信息技术有限公司 | 语音文本生成方法、语音文本生成模型的训练方法、装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295295A (zh) * | 2008-06-13 | 2008-10-29 | 中国科学院计算技术研究所 | 基于线性模型的汉语词法分析方法 |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
KR20100082980A (ko) * | 2009-01-12 | 2010-07-21 | 울산대학교 산학협력단 | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 |
CN106095754A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种医学术语词库词性标注方法 |
US20170278514A1 (en) * | 2016-03-23 | 2017-09-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
-
2017
- 2017-12-27 CN CN201711446486.1A patent/CN108170674A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN101295295A (zh) * | 2008-06-13 | 2008-10-29 | 中国科学院计算技术研究所 | 基于线性模型的汉语词法分析方法 |
KR20100082980A (ko) * | 2009-01-12 | 2010-07-21 | 울산대학교 산학협력단 | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
US20170278514A1 (en) * | 2016-03-23 | 2017-09-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
CN106095754A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种医学术语词库词性标注方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
冯志伟等: "隐马尔可夫模型及其在自动词类标注中的应用", 《燕山大学学报》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147545B (zh) * | 2018-09-18 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 文本的结构化输出方法及系统、存储介质和计算机设备 |
CN110147545A (zh) * | 2018-09-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 文本的结构化输出方法及系统、存储介质和计算机设备 |
CN109344406A (zh) * | 2018-09-30 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 词性标注方法、装置和电子设备 |
CN110162681A (zh) * | 2018-10-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本识别、文本处理方法、装置、计算机设备和存储介质 |
CN110162681B (zh) * | 2018-10-08 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 文本识别、文本处理方法、装置、计算机设备和存储介质 |
CN109388803A (zh) * | 2018-10-12 | 2019-02-26 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN109388803B (zh) * | 2018-10-12 | 2023-09-15 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN111353308A (zh) * | 2018-12-20 | 2020-06-30 | 北京深知无限人工智能研究院有限公司 | 命名实体识别方法、装置、服务器及存储介质 |
CN109684638B (zh) * | 2018-12-24 | 2023-08-11 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
CN109800435B (zh) * | 2019-01-29 | 2023-06-20 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN109933788A (zh) * | 2019-02-14 | 2019-06-25 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN110222328A (zh) * | 2019-04-08 | 2019-09-10 | 平安科技(深圳)有限公司 | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 |
CN110222328B (zh) * | 2019-04-08 | 2022-11-22 | 平安科技(深圳)有限公司 | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 |
CN110347696B (zh) * | 2019-05-28 | 2024-03-26 | 平安科技(深圳)有限公司 | 数据转换方法、装置、计算机设备以及存储介质 |
CN110347696A (zh) * | 2019-05-28 | 2019-10-18 | 平安科技(深圳)有限公司 | 数据转换方法、装置、计算机设备以及存储介质 |
CN110377899A (zh) * | 2019-05-30 | 2019-10-25 | 北京达佳互联信息技术有限公司 | 一种确定词语词性的方法、装置及电子设备 |
CN110413773B (zh) * | 2019-06-20 | 2023-09-22 | 平安科技(深圳)有限公司 | 智能文本分类方法、装置及计算机可读存储介质 |
CN110413773A (zh) * | 2019-06-20 | 2019-11-05 | 平安科技(深圳)有限公司 | 智能文本分类方法、装置及计算机可读存储介质 |
CN110489544A (zh) * | 2019-06-24 | 2019-11-22 | 厦门美域中央信息科技有限公司 | 一种基于马尔可夫链的语料库文本分类方法 |
CN110309513A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110309513B (zh) * | 2019-07-09 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110532391A (zh) * | 2019-08-30 | 2019-12-03 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN110852102B (zh) * | 2019-11-14 | 2023-09-05 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN111353295A (zh) * | 2020-02-27 | 2020-06-30 | 广东博智林机器人有限公司 | 序列标注方法、装置、存储介质及计算机设备 |
CN111506726A (zh) * | 2020-03-18 | 2020-08-07 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111506726B (zh) * | 2020-03-18 | 2023-09-22 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112131873A (zh) * | 2020-09-30 | 2020-12-25 | 国网浙江省电力有限公司信息通信分公司 | 文本的词性标注方法及装置 |
WO2024077906A1 (zh) * | 2022-10-09 | 2024-04-18 | 京东科技信息技术有限公司 | 语音文本生成方法、语音文本生成模型的训练方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170674A (zh) | 词性标注方法和装置、程序产品及存储介质 | |
US11531804B2 (en) | Enhancing reading accuracy, efficiency and retention | |
CN109065110B (zh) | 一种基于深度学习方法的自动生成医学影像诊断报告的方法 | |
Yin et al. | Chinese clinical named entity recognition with radical-level feature and self-attention mechanism | |
Mykowiecka et al. | Rule-based information extraction from patients’ clinical data | |
JP6749835B2 (ja) | コンテキスト依存医学データ入力システム | |
US7610192B1 (en) | Process and system for high precision coding of free text documents against a standard lexicon | |
Moradi et al. | Bimodal network architectures for automatic generation of image annotation from text | |
US11967084B2 (en) | PDAC image segmentation method, electronic device and storage medium | |
CN112635013A (zh) | 医学影像信息的处理方法、装置、电子设备和存储介质 | |
Holderness et al. | Analysis of risk factor domains in psychosis patient health records | |
Hu et al. | Comparative effectiveness of resection vs surveillance for pancreatic branch duct intraductal papillary mucinous neoplasms with worrisome features | |
US10235360B2 (en) | Generation of pictorial reporting diagrams of lesions in anatomical structures | |
Li et al. | Automated tracking of emergency department abdominal CT findings during the COVID-19 pandemic using natural language processing | |
Dobrakowski et al. | Interpretable segmentation of medical free-text records based on word embeddings | |
Zhang et al. | The comparative experimental study of multilabel classification for diagnosis assistant based on chinese obstetric emrs | |
Ahmad et al. | A deep transfer learning approach for COVID-19 detection and exploring a sense of belonging with Diabetes | |
Zhang et al. | Comparison of chest radiograph captions based on natural language processing vs completed by radiologists | |
Karam et al. | A progressive and cross-domain deep transfer learning framework for wrist fracture detection | |
D’Anniballe et al. | Multi-label annotation of text reports from computed tomography of the chest, abdomen, and pelvis using deep learning | |
CN115240873A (zh) | 一种基于机器学习的药物推荐方法、电子设备和计算机可读存储介质 | |
Miftahutdinov et al. | Deep learning for ICD coding: Looking for medical concepts in clinical documents in English and in French | |
Saeed et al. | Medical terminology-based computing system: a lightweight post-processing solution for out-of-vocabulary multi-word terms | |
Song et al. | ECNU at 2016 eHealth Task 1: Handover Information Extraction. | |
Liu et al. | CPMI-ChatGLM: Parameter-efficient fine-tuning ChatGLM with Chinese patent medicine instructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |