CN108170680A - 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 - Google Patents

基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 Download PDF

Info

Publication number
CN108170680A
CN108170680A CN201711480960.2A CN201711480960A CN108170680A CN 108170680 A CN108170680 A CN 108170680A CN 201711480960 A CN201711480960 A CN 201711480960A CN 108170680 A CN108170680 A CN 108170680A
Authority
CN
China
Prior art keywords
state
hidden
markov model
hidden markov
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711480960.2A
Other languages
English (en)
Inventor
龚黎立
章正道
俞碧洪
许剑峰
朱振水
李程
阮赐兴
黄艺森
戴祖安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201711480960.2A priority Critical patent/CN108170680A/zh
Publication of CN108170680A publication Critical patent/CN108170680A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于隐马尔科夫模型关键词识别方法,包括以下步骤:S1、构建隐马尔科夫模型,隐马尔科夫模型包括五个元素:隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态矩阵B;S2、将目标文章通过分词算法拆分成词语+词性的格式后,输入已经构建好的隐马尔科夫模型中,获得可观测状态序列O,然后将可观测状态序列O输入构建好的隐马尔科夫模型,得到模型μ;S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O={O1,O2,….OT},通过维特比算法,计算隐藏状态的最大可能值,从而识别每个词是否为关键词。本发明实现较好的通用性,可同时针对较长文章及短小文章提取关键词,识别的准确性高。

Description

基于隐马尔科夫模型的关键词识别方法、终端设备及存储 介质
技术领域
本发明涉及一种基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质。
背景技术
目前国内对语句观点的识别主要技术分为三类:
1、基于词典与规则匹配的识别方法:主要使用情感词本体或者情感词典作为识别的基础;
2、基于统计的识别方法:主要使用了支持向量机(SVM),朴素贝叶斯(NaiveBayes)等在已经标注好的语料上进行训练,然后使用了训练所得到的分类器进行分类;
3、基于LDA主题模型的识别方法:主要使用LDA主题模型,不考虑文档中词的顺序,将每一篇文章看成是所有主题的混合分布,而主题又看成是词汇库中所有词的混合分布的方式进行识别分析。
目前国内对语句观点识别的三种方法中,头两种方式,基于词典与规则匹配的识别和基于统计的识别,很少考虑到微博内容的聚集性的特点,在对微博等短小文章的观点判断上会出现偏差;而第三种方式,基于LDA主题模型的识别方式在微博等短小文章的判断上有一定优势,但对于大段的文章判断会出现一定的偏差。
隐马尔科夫模型主要用于解决连续数据的概率问题,目前主要用于分词、语音识别或数据走势预测(如股票走势预测)等方面,在关键词提取上,隐马尔科夫模型主要为配合textRank算法,从词频、词性等方面加权提取关键词,因此难以用于微博等短小文章的关键词判断。
发明内容
本发明旨在提供一种基于隐马尔科夫模型关键词识别方法,以解决上述问题。为此,本发明采用的具体技术方案如下:
一种基于隐马尔科夫模型的关键词识别方法,包括以下步骤:
S1、构建隐马尔科夫模型,隐马尔科夫模型包括五个元素:隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态矩阵B,具体包括以下过程:
S11、构建隐含状态S,隐含状态S包括“MI”、“I”和“N”三种隐含状态,分别表示为主关键词、次关键词、一般词汇;
S12、构建可观测状态O,可观测状态O包括中文中包括的各个常用词汇及词性的排列组合和分别表示句首、句尾、段首和段尾的“SS”、“SE”、“PS”和“PE”四个状态,通过中文分词后的输入的序列得到可观测状态O;
S13、构建初始状态概率矩阵π,由于中文语句的特殊性,初始状态固定为段首;
S14、构建隐含状态转移概率矩阵A,通过标注好的语句进行训练,获得隐含状态转移概率矩阵A;
S15、构建观测状态矩阵B,通过标注好的语句进行训练,获得观测状态矩阵B;
S2、将目标文章通过分词算法拆分成词语+词性的格式后,输入已经构建好的隐马尔科夫模型中,获得可观测状态序列O={O1,O2,…,OT},然后将可观测状态序列O输入构建好的隐马尔科夫模型,得到模型μ;
S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O={O1,O2,…,OT},通过维特比算法,计算隐藏状态的最大可能值,从而识别每个词是否为关键词。
进一步地,步骤S14的具体过程为:输入人工标注好关键词的语句或段落文本,获取每个词的隐含状态Si,通过Si和Si+1的关系统计出隐含状态转移矩阵A。
进一步地,步骤S15的具体过程为:输入人工标注好关键词的语句或段落文本,获取每个词的可观测状态Oi,通过Oi和Oi+1的关系统计出观测状态转移矩阵B。
进一步地,步骤S3中的隐藏状态的最大可能值通过下面公式计算:
其中,P为概率集合,qi为每个对应观测状态O对应于Si的概率,aij为观测状态转移矩阵的由i转变为j的概率,bi为当前节点隐藏状态转移矩阵的转变概率;步骤S3的具体过程如下:
S31、初始化:
δ1(i)=πibi(O1),1≤i≤N,
ψ1(i)=0,
其中,πi为初始状态,ψ1(i)为反向指针的初始化;
S32、归纳计算,通过隐藏状态的初始概率和相应的观测状态的概率计算出t节点的可能路径,再经由可能路径计算出t节点的局部概率:
ψt(j)=argmax1≤i≤Nt-1(i)·aij]·bj(Ot),2≤t≤T,1≤i≤N,
其中,T表示总的节点数,N表示t节点的观测状态的个数;
S33、终结,通过上一步得出的路径的集合统计出每个节点的最可能路径,再通过最可能路径计算出t节点的最可能的隐藏状态:
其中,表示可能路径集合,表示可能路径中隐藏状态的概率;
S34、路径回溯:
其中,表示t节点之前的每个对应观测状态O对应于Si的概率的集合。
本发明还提供了一种基于隐马尔科夫模型的关键词识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明采用上述技术方案,具有的有益效果是:本发明实现较好的通用性,可同时针对较长文章及短小文章提取关键词,识别的准确性高。
附图说明
图1是根据本发明实施例的基于隐马尔科夫模型关键词识别方法的流程图;
图2是图1中的步骤S3中的维特比算法的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。如图1所示,一种基于隐马尔科夫模型的关键词识别方法,可包括以下步骤:
S1、构建隐马尔科夫模型。隐马尔科夫模型可以用五个元素来描述,包括两个状态集合和三个概率矩阵,构建隐马尔科夫模型主要为构建这五个元素:隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态矩阵B。具体包括以下过程:
S11、构建隐含状态S。隐马尔科夫模型是一个双重随机的模型,其中模型隐藏状态S的转换过程是不可观测的,如同语句中观点的关键词一样,无法用明确的标准来定义。在利用隐马尔科夫模型进行观点判断中,采用三种隐含状态,分别为“MI”,“I”,“N”,分别表示为主关键词、次关键词、一般词汇,以此来构建隐马尔科夫模型的三种隐藏状态。
S12、构建可观测状态O。可观测状态O包括中文中包括的各个常用词汇及词性的排列组合和分别表示句首、句尾、段首和段尾的“SS”、“SE”、“PS”和“PE”四个状态,通过中文分词后的输入的序列得到可观测状态O。
S13、构建初始状态概率矩阵π。由于中文语句的特殊性,初始状态固定为段首。
S14、构建隐含状态转移概率矩阵A。通过标注好的语句进行训练,获得隐含状态转移概率矩阵A。具体过程为:输入人工标注好关键词的语句或段落文本,获取每个词的隐含状态Si,通过Si和Si+1的关系统计出隐含状态转移矩阵A。更具体地,输入用于训练材料(标注好关键词、观点的语句或段落文本),利用分词的算法,将输入的句料拆分成词+词性的格式的观测状态(词相同但词性不同看做两个不同的观测状态);将观测状态和隐含状态相互结合,输入隐马尔科夫模型,统计观测状态1之后出现的所有观测状态1…n中出现的隐藏状态(MI、I、N)的概率,由此可以获得观测状态1之后的隐藏状态转移概率矩阵;依次循环可以获得所有观测状态之后的隐藏状态转移概率矩阵。
S15、构建观测状态矩阵B。通过标注好的语句进行训练,获得观测状态矩阵B。具体过程为:输入人工标注好关键词的语句或段落文本,获取每个词的可观测状态Oi,通过Oi和Oi+1的关系统计出观测状态转移矩阵B。更具体地,输入用于训练材料(标注好关键词、观点的语句或段落文本),利用分词的算法,将输入的句料拆分成词+词性的格式的观测状态(词相同但词性不同看做两个不同的观测状态);将观测状态和隐含状态相互结合,输入隐马尔科夫模型,统计观测状态1之后出现不同隐藏状态(MI、I、N)下的观测状态2….n的概率,由此可获得在不同隐藏状态下的观测状态转移矩阵B。
S2、将目标文章通过分词算法拆分成词语+词性的格式后,输入已经构建好的隐马尔科夫模型中,获得可观测状态序列O={O1,O2,…,OT},然后将可观测状态序列O输入构建好的隐马尔科夫模型,得到模型μ。
S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O={O1,O2,…,OT},通过维特比算法,计算隐藏状态的最大可能值,从而识别每个词是否为关键词。如图2所示,步骤S3中的隐藏状态的最大可能值通过下面公式计算:
其中,P为概率集合,qt为每个对应观测状态O对应于Si的概率,aij为观测状态转移矩阵的由i转变为j的概率,bi为当前节点隐藏状态转移矩阵的转变概率;所述步骤S3的具体过程如下:
S31、初始化:
δ1(i)=πibi(O1),1≤i≤N,
ψ1(i)=0,
其中,πi为初始状态,ψ1(i)为反向指针的初始化,第一个节点无前节点,因此值为0。
S32、归纳计算,通过隐藏状态的初始概率和相应的观测状态的概率计算出t节点的可能路径,再经由可能路径计算出t节点的局部概率:
ψt(j)=argmax1≤i≤Nt-1(i)·aij]·bj(Ot),2≤t≤T,1≤i≤N,
其中,T表示总的节点数,N表示t节点的观测状态的个数;
S33、终结,通过上一步得出的路径的集合统计出每个节点的最可能路径,再通过最可能路径计算出t节点的最可能的隐藏状态:
其中,表示可能路径集合,表示可能路径中隐藏状态的概率;
S34、路径回溯:
其中,表示t节点之前的每个对应观测状态O对应于Si的概率的集合。
在本发明的实施例中,还提供了一种基于隐马尔科夫模型的关键词识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
进一步地,该终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述终端设备的组成结构仅仅是基于隐马尔科夫模型的关键词识别终端设备的示例,并不构成对基于隐马尔科夫模型的关键词识别终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如基于隐马尔科夫模型的关键词识别终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是基于隐马尔科夫模型的关键词识别终端设备的控制中心,利用各种接口和线路连接整个基于隐马尔科夫模型的关键词识别终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于隐马尔科夫模型的关键词识别终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
基于隐马尔科夫模型的关键词识别终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明提供一种新的方法来获取文章中的观点及关键词。发明人在隐马尔科夫模型配合textRank算法基础上,去除textRank在词频上对算法的影响,对隐马尔科夫重新建模,将词性与词结合放入隐马尔科夫转移矩阵中,同时针对现有隐马尔科夫模型进行修改,将原有的一个隐藏状态转移矩阵变为多元的隐藏状态转移矩阵(即隐藏状态转移矩阵是会根据上下文的变化而发生变化的),建立新的模型,从“语义”(词与词之间的前后关联性)上判断文章的关键词,从而实现较好的通用性,可同时针对较长文章及短小文章提取关键词。
本发明的最大的特点是利用整个文章上下文的词语及语句直接的关联性来判断观点及关键词,是较为通用的模型,可以通过输入训练的数据不同构建针对不同环境的模型,从而提高对这类数据判断的准确性。如可输入体育相关的微博数据进行训练,可构建出判断微博上与体育相关的博文的关键词和观点的模型,提高针对该类数据判断的准确性。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (6)

1.基于隐马尔科夫模型的关键词识别方法,其特征在于,包括以下步骤:
S1、构建隐马尔科夫模型,隐马尔科夫模型包括五个元素:隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态转移矩阵B,具体包括以下过程:
S11、构建隐含状态S,隐含状态S包括“MI”、“I”和“N”三种隐含状态,分别表示为主关键词、次关键词、一般词汇;
S12、构建可观测状态O,可观测状态O包括中文中包括的各个常用词汇及词性的排列组合和分别表示句首、句尾、段首和段尾的“SS”、“SE”、“PS”和“PE”四个状态,通过中文分词后的输入的序列得到可观测状态O;
S13、构建初始状态概率矩阵π,由于中文语句的特殊性,初始状态固定为段首;
S14、构建隐含状态转移概率矩阵A,通过标注好的语句进行训练,获得隐含状态转移概率矩阵A;
S15、构建观测状态转移矩阵B,通过标注好的语句进行训练,获得观测状态转移矩阵B;
S2、将目标文章通过分词算法拆分成词语+词性的格式后,输入已经构建好的隐马尔科夫模型中,获得可观测状态序列O={O1,O2,…,OT},然后将可观测状态序列O输入构建好的隐马尔科夫模型,得到模型μ;
S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O={O1,O2,…,OT},通过维特比算法,计算隐藏状态的最大可能值,从而识别每个词是否为关键词。
2.如权利要求1所述的基于隐马尔科夫模型的关键词识别方法,其特征在于,步骤S14的具体过程为:输入人工标注好关键词的语句或段落文本,获取每个词的隐含状态Si,通过Si和Si+1的关系统计出隐含状态转移矩阵A。
3.如权利要求1所述的基于隐马尔科夫模型的关键词识别方法,其特征在于,步骤S15的具体过程为:输入人工标注好关键词的语句或段落文本,获取每个词的可观测状态Oi,通过Oi和Oi+1的关系统计出观测状态转移矩阵B。
4.如权利要求1所述的基于隐马尔科夫模型的关键词识别方法,其特征在于,步骤S3中的隐藏状态的最大可能值通过下面公式计算:
其中,P为概率集合,qi为每个对应观测状态O对应于Si的概率,aij为观测状态转移矩阵的由i转变为j的概率,bi为当前节点隐藏状态转移矩阵的转变概率;步骤S3的具体过程如下:
S31、初始化:
δ1(i)=πibi(O1),1≤i≤N,
ψ1(i)=0,
其中,πi为初始状态,ψ1(i)为反向指针的初始化;
S32、归纳计算,通过隐藏状态的初始概率和相应的观测状态的概率计算出t节点的可能路径,再经由可能路径计算出t节点的局部概率:
ψt(j)=arg max1≤i≤Nt-1(i)·aij]·bj(Ot),2≤t≤T,1≤i≤N,
其中,T表示总的节点数,N表示t节点的观测状态的个数;
S33、终结,通过上一步得出的路径的集合统计出每个节点的最可能路径,再通过最可能路径计算出t节点的最可能的隐藏状态:
其中,表示可能路径集合,表示可能路径中隐藏状态的概率;
S34、路径回溯:
其中,表示t节点之前的每个对应观测状态O对应于Si的概率的集合。
5.一种基于隐马尔科夫模型的关键词识别终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
CN201711480960.2A 2017-12-29 2017-12-29 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 Pending CN108170680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711480960.2A CN108170680A (zh) 2017-12-29 2017-12-29 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711480960.2A CN108170680A (zh) 2017-12-29 2017-12-29 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN108170680A true CN108170680A (zh) 2018-06-15

Family

ID=62516490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711480960.2A Pending CN108170680A (zh) 2017-12-29 2017-12-29 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN108170680A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831447A (zh) * 2018-09-29 2018-11-16 广东工业大学 基于hmm和pnn的语音识别方法、装置及存储介质
CN109284358A (zh) * 2018-09-05 2019-01-29 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109325225A (zh) * 2018-08-28 2019-02-12 昆明理工大学 一种通用的基于关联的词性标注方法
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109448493A (zh) * 2018-12-27 2019-03-08 中国电子科技集团公司第十五研究所 塔台管制模拟训练系统、语音管制指令识别及报读方法
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN110598038A (zh) * 2019-09-27 2019-12-20 京东方科技集团股份有限公司 画作标签生成方法及电子设备
CN110705295A (zh) * 2019-09-11 2020-01-17 北京航空航天大学 基于关键词提取的实体名消岐方法
CN111046882A (zh) * 2019-12-05 2020-04-21 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN111160024A (zh) * 2019-12-30 2020-05-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN111291967A (zh) * 2020-01-13 2020-06-16 北京化工大学 基于布谷鸟搜索的隐马尔可夫模型食品安全风险评估方法
CN111291162A (zh) * 2020-02-26 2020-06-16 深圳前海微众银行股份有限公司 质检例句挖掘方法、装置、设备及计算机可读存储介质
CN111522823A (zh) * 2020-03-09 2020-08-11 平安科技(深圳)有限公司 数据同步监控方法、装置、计算机设备及存储介质
CN111598114A (zh) * 2019-02-20 2020-08-28 腾讯大地通途(北京)科技有限公司 隐藏状态序列的确定方法和街区的功能类型的确定方法
CN111814464A (zh) * 2020-05-25 2020-10-23 清华大学 一种基于隐马尔可夫模型的词性标注方法
CN112001174A (zh) * 2020-08-10 2020-11-27 深圳中兴网信科技有限公司 文本脱敏方法、装置、电子设备和计算机可读存储介质
CN112380846A (zh) * 2020-11-12 2021-02-19 平安科技(深圳)有限公司 医学文献的突发热点检测方法、装置、电子设备及相关产品
CN113343670A (zh) * 2021-05-26 2021-09-03 武汉大学 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法
CN116362630A (zh) * 2023-06-01 2023-06-30 深圳正实自动化设备有限公司 基于物联网的锡膏印刷机管理方法、系统及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06223227A (ja) * 1992-12-17 1994-08-12 Xerox Corp プロセッサベースの判定方法
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105608154A (zh) * 2016-02-14 2016-05-25 广州网律互联网科技有限公司 一种基于隐马尔科夫链模型的智能推荐算法
CN105912570A (zh) * 2016-03-29 2016-08-31 北京工业大学 基于隐马尔可夫模型的英文简历关键字段抽取方法
CN107273360A (zh) * 2017-06-21 2017-10-20 成都布林特信息技术有限公司 基于语义理解的中文实词提取算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06223227A (ja) * 1992-12-17 1994-08-12 Xerox Corp プロセッサベースの判定方法
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105608154A (zh) * 2016-02-14 2016-05-25 广州网律互联网科技有限公司 一种基于隐马尔科夫链模型的智能推荐算法
CN105912570A (zh) * 2016-03-29 2016-08-31 北京工业大学 基于隐马尔可夫模型的英文简历关键字段抽取方法
CN107273360A (zh) * 2017-06-21 2017-10-20 成都布林特信息技术有限公司 基于语义理解的中文实词提取算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张贺: "基于改进HMMs的中文原子事件抽取方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325225A (zh) * 2018-08-28 2019-02-12 昆明理工大学 一种通用的基于关联的词性标注方法
CN109325225B (zh) * 2018-08-28 2022-04-12 昆明理工大学 一种通用的基于关联的词性标注方法
CN109284358A (zh) * 2018-09-05 2019-01-29 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109284358B (zh) * 2018-09-05 2020-08-28 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN108831447A (zh) * 2018-09-29 2018-11-16 广东工业大学 基于hmm和pnn的语音识别方法、装置及存储介质
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109388404B (zh) * 2018-10-10 2022-10-18 北京如布科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109815483B (zh) * 2018-12-19 2023-08-08 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN109448493A (zh) * 2018-12-27 2019-03-08 中国电子科技集团公司第十五研究所 塔台管制模拟训练系统、语音管制指令识别及报读方法
CN111598114A (zh) * 2019-02-20 2020-08-28 腾讯大地通途(北京)科技有限公司 隐藏状态序列的确定方法和街区的功能类型的确定方法
CN111598114B (zh) * 2019-02-20 2023-07-25 腾讯大地通途(北京)科技有限公司 隐藏状态序列的确定方法和街区的功能类型的确定方法
CN110705295A (zh) * 2019-09-11 2020-01-17 北京航空航天大学 基于关键词提取的实体名消岐方法
CN110705295B (zh) * 2019-09-11 2021-08-24 北京航空航天大学 基于关键词提取的实体名消岐方法
CN110598038A (zh) * 2019-09-27 2019-12-20 京东方科技集团股份有限公司 画作标签生成方法及电子设备
CN111046882A (zh) * 2019-12-05 2020-04-21 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN111046882B (zh) * 2019-12-05 2023-01-24 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN111191026A (zh) * 2019-12-10 2020-05-22 央视国际网络无锡有限公司 一种能够标定特定片段的文本分类方法
CN111160024A (zh) * 2019-12-30 2020-05-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN111160024B (zh) * 2019-12-30 2023-08-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN111291967A (zh) * 2020-01-13 2020-06-16 北京化工大学 基于布谷鸟搜索的隐马尔可夫模型食品安全风险评估方法
CN111291162A (zh) * 2020-02-26 2020-06-16 深圳前海微众银行股份有限公司 质检例句挖掘方法、装置、设备及计算机可读存储介质
CN111291162B (zh) * 2020-02-26 2024-04-09 深圳前海微众银行股份有限公司 质检例句挖掘方法、装置、设备及计算机可读存储介质
CN111522823B (zh) * 2020-03-09 2024-04-05 平安科技(深圳)有限公司 数据同步监控方法、装置、计算机设备及存储介质
CN111522823A (zh) * 2020-03-09 2020-08-11 平安科技(深圳)有限公司 数据同步监控方法、装置、计算机设备及存储介质
CN111814464A (zh) * 2020-05-25 2020-10-23 清华大学 一种基于隐马尔可夫模型的词性标注方法
CN112001174A (zh) * 2020-08-10 2020-11-27 深圳中兴网信科技有限公司 文本脱敏方法、装置、电子设备和计算机可读存储介质
CN112380846A (zh) * 2020-11-12 2021-02-19 平安科技(深圳)有限公司 医学文献的突发热点检测方法、装置、电子设备及相关产品
CN113343670B (zh) * 2021-05-26 2023-07-28 武汉大学 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法
CN113343670A (zh) * 2021-05-26 2021-09-03 武汉大学 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法
CN116362630A (zh) * 2023-06-01 2023-06-30 深圳正实自动化设备有限公司 基于物联网的锡膏印刷机管理方法、系统及介质
CN116362630B (zh) * 2023-06-01 2023-08-18 深圳正实自动化设备有限公司 基于物联网的锡膏印刷机管理方法、系统及介质

Similar Documents

Publication Publication Date Title
CN108170680A (zh) 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质
CN107122346B (zh) 一种输入语句的纠错方法及装置
Nguyen et al. Joint event extraction via recurrent neural networks
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
WO2020215694A1 (zh) 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备
CN109558533B (zh) 一种基于多重聚类的个性化内容推荐方法及装置
US9158839B2 (en) Systems and methods for training and classifying data
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
WO2022141875A1 (zh) 用户意图识别方法、装置、设备及计算机可读存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
JPWO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN109739960A (zh) 文本的情感分析方法、情感分析装置及终端
CN106649250A (zh) 一种情感新词的识别方法及装置
CN105810192B (zh) 语音识别方法及其系统
CN111241269B (zh) 一种短信文本分类方法、装置、电子设备及存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN111581347A (zh) 语句相似度匹配方法及装置
CN106649269A (zh) 一种口语化句子的提取方法和装置
WO2023245869A1 (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN111354354A (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN109446318A (zh) 一种确定汽车维修文档主题的方法及相关设备
CN114385791A (zh) 基于人工智能的文本扩充方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615

RJ01 Rejection of invention patent application after publication