CN108334492A - 文本分词、即时消息处理方法和装置 - Google Patents

文本分词、即时消息处理方法和装置 Download PDF

Info

Publication number
CN108334492A
CN108334492A CN201711266278.3A CN201711266278A CN108334492A CN 108334492 A CN108334492 A CN 108334492A CN 201711266278 A CN201711266278 A CN 201711266278A CN 108334492 A CN108334492 A CN 108334492A
Authority
CN
China
Prior art keywords
word
text
character
word vector
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711266278.3A
Other languages
English (en)
Other versions
CN108334492B (zh
Inventor
林伟
许耀峰
朱青蓥
王锐
阮闪闪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711266278.3A priority Critical patent/CN108334492B/zh
Publication of CN108334492A publication Critical patent/CN108334492A/zh
Application granted granted Critical
Publication of CN108334492B publication Critical patent/CN108334492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本分词、即时消息处理方法和装置,该文本分词方法包括:获取待分词的文本;将文本中的字符分别转化为相应的字向量;将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率;根据概率,分别确定文本中各字符所属的词中位置标注状态;按照文本中各字符所属的词中位置标注状态对文本进行分词。本申请提供的方案提高了对文本进行分词的准确性。

Description

文本分词、即时消息处理方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本分词、即时消息处理方法和装置、存储介质和计算机设备。
背景技术
随着计算机技术的发展,网络上出现的文本数量与日俱增,比如电子邮件、实时新闻、科技博文等等,因此,对这些文本进行处理以获得所需要的信息的需求日益迫切。
分词作为自然语言处理领域中的基础步骤,在自然语言处理中扮演着重要的角色。目前,文本分词算法一般是采用模板匹配的方式,比如基于文本匹配的分词算法、基于词典的分词算法等等,分词准确性完全依赖于模板,导致分词准确率较低。
发明内容
基于此,有必要针对现有的文本分词算法分词准确率较低的技术问题,提供一种文本分词、即时消息处理方法、装置、存储介质和计算机设备。
一种文本分词方法,包括:
获取待分词的文本;
将所述文本中的字符分别转化为相应的字向量;
将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率;
根据所述概率,分别确定所述文本中各字符所属的词中位置标注状态;
按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词。
一种文本分词装置,包括:
文本获取模块,用于获取待分词的文本;
字向量生成模块,用于将所述文本中的字符分别转化为相应的字向量;
概率获取模块,用于将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率;
词中位置标注状态确定模块,用于根据所述概率,分别确定所述文本中各字符所属的词中位置标注状态;
分词模块,用于按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待分词的文本;
将所述文本中的字符分别转化为相应的字向量;
将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率;
根据所述概率,分别确定所述文本中各字符所属的词中位置标注状态;
按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待分词的文本;
将所述文本中的字符分别转化为相应的字向量;
将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率;
根据所述概率,分别确定所述文本中各字符所属的词中位置标注状态;
按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词。
上述文本分词方法、装置、存储介质和计算机设备,将文本转化为适于机器学习模型的字向量后输入到机器学习模型进行处理,通过神经网络可以充分挖掘字向量所表示字符与文本中其它字符的联系,从而利用机器学习模型输出的概率,较为准确地确定文本中的各字符的词中位置状态,据此从文本中切分出词。利用机器学习模型进行文本分词,可以不再依赖于模板,通过学习挖掘文本中字符的内在关联,从而可以达到较高的分词准确率。
一种即时消息处理方法,包括:
获取即时消息;
提取所述即时消息中的文本内容,得到待分词的文本;
将所述文本发送至服务器;
接收所述服务器反馈的对所述文本进行分词得到的词;所述词是采用基于神经网络的机器学习模型对所述文本进行分词得到的;
将分词得到的词分别展示;
检测作用于展示的所述词的选中操作;
将所述选中操作所作用的词构成重组文本。
一种即时消息处理装置,包括:
即时消息获取模块,用于获取即时消息;
待分词的文本获取模块,用于提取所述即时消息中的文本内容,得到待分词的文本;
发送模块,用于将所述文本发送至服务器;
接收模块,用于接收所述服务器反馈的对所述文本进行分词得到的词;所述词是采用基于神经网络的机器学习模型对所述文本进行分词得到的;
展示模块,用于将分词得到的词分别展示;
检测模块,用于检测作用于展示的所述词的选中操作;
重构模块,用于将所述选中操作所作用的词构成重组文本。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取即时消息;
提取所述即时消息中的文本内容,得到待分词的文本;
将所述文本发送至服务器;
接收所述服务器反馈的对所述文本进行分词得到的词;所述词是采用基于神经网络的机器学习模型对所述文本进行分词得到的;
将分词得到的词分别展示;
检测作用于展示的所述词的选中操作;
将所述选中操作所作用的词构成重组文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取即时消息;
提取所述即时消息中的文本内容,得到待分词的文本;
将所述文本发送至服务器;
接收所述服务器反馈的对所述文本进行分词得到的词;所述词是采用基于神经网络的机器学习模型对所述文本进行分词得到的;
将分词得到的词分别展示;
检测作用于展示的所述词的选中操作;
将所述选中操作所作用的词构成重组文本。
上述即时消息处理方法、装置、存储介质和计算机设备,将从即时消息中提取到的文本内容作为待分词的文本,并发送至服务器,就可以接收到服务器反馈的对即时消息中的文本内容进行分词得到的词。其中,服务器采用的文本分词方法是训练好的基于神经网络的机器学习模型,可以提升了对文本内容进行分词的准确率。在将从文本中分词得到的词进行展示后,可以在检测到作用于上述词的选中操作时,对选中的词进行重组,能够快速又准确地提取到即时消息中的关键信息。
附图说明
图1为一个实施例中文本分词方法的应用环境图;
图2为一个实施例中文本分词方法的流程示意图;
图3为一个实施例中将文本进行分词的示意图;
图4为一个实施例中将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率的步骤的流程示意图;
图5为一个实施例中对基于神经网络的机器学习模型进行训练的步骤的流程示意图;
图6为一个实施例中将即时消息中的文本内容进行分词后进行展示和重组的界面示意图;
图7为一个具体实施例中文本分词方法的流程示意图;
图8为一个实施例中即时消息处理方法的应用环境图;
图9为一个实施例中即时消息处理方法的流程示意图;
图10为一个实施例中文本分词装置的结构框图;
图11为另一个实施例中文本分词装置的结构框图;
图12为一个实施例中即时消息处理装置的结构框图;
图13为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中文本分词方法的应用环境图。参照图1,该文本分词方法应用于文本分词系统。该文本分词系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种文本分词方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该文本分词方法具体包括如下步骤:
S202,获取待分词的文本。
其中,分词是将文本对应的连续的字序列按照一定的规范重新组合成词序列的过程。待分词的文本是待进行分词得到词序列的文本数据。比如,待分词的文本可以是“中国人民的解放军”或者“我喜欢观看巴西足球世界杯”等等。
具体地,终端可以获取在文本输入界面输入的文本信息,将在文本输入界面输入的文本信息作为待分词的文本,比如待分词的文本可以是在即时通信应用中的聊天界面输入的文本信息等。终端也可以在检测到对文本信息的选中操作时,将获取的文本数据作为待分词的文本,比如待分词的文本可以是电子书中长按选中的某一文本段落等。终端还可以将通过网络接收的文本数据作为待分词的文本,比如待分词的文本可以是推送的天气预报信息等。
S204,将文本中的字符分别转化为相应的字向量。
其中,字符是计算机可处理的基本语义单元。字符可以是字母、数字、汉字和标点符号中的至少一种。文本中的字符是待分词的文本中对应的单个字符。比如文本“中国人民的解放军”包括“中”、“国”、“人”、“民”、“的”、“解”、“放”、“军”这8个字符。
字向量是用于将文本中的字符以数学形式进行表达的数据。比如:
“中”对应的数学形式为“[1,0,2,0,2,3,4,...,n]”;
“国”对应的数学形式为“[1,1,2,2,2,3,4,...,n]”;
“人”对应的数学形式为“[0,1,4,2,2,3,4,...,n]”;
……
这里以向量形式表达了每个字符对应的数学形式,也就是每个字符对应的字向量。文本中的每个字符对应的字向量构成了该文本对应的字向量空间。将字符转换为字向量的过程也叫字嵌入(word embedding),这样就可以将对文本的处理转换为对文本中的每个字符对应的字向量进行运算。每一字符对应的字向量为该字向量空间中的一个“点”,“点”与“点”之间的距离可以用于判断各个字符在语义之间的相似性。每个字符对应的字向量的维数可以根据需要来进行设定。每个字符对应的字向量的维数具体可以是50。
具体地,终端可以在获取到待分词的文本之后,根据各个字符在语义之间的相似性,将文本中的每个字符向量化,从而得到每个字符对应的字向量。终端还可以在获取到待分词的文本之后,将待分词的文本发送至服务器,在服务器将文本中的字符分别转换为相应的字向量后,由终端接收服务器返回的各个字符对应的字向量。终端可以利于字符向量化模型将待分词的文本中的字符转化为对应的字向量,字符向量化模型比如Word2vec模型或者GloVe模型等。
S206,将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
其中,预设的各词中位置标注状态是预设的当前字符在所属词中的位置对应的位置标注。比如,位置标注B表示该字符位于所属词的开头,位置标注M表示该字符位于所属词的中间位置,位置标注E表示该字符位于所属词的末尾,位置标注S则表示该字符单独成词。可以理解,待分词的文本中末尾字符对应的位置标注只可能是E或S,首字符对应的位置标注只可能是B或S。这里的预设的各词中位置标注状态并不仅限于以B、M、E、S来表示,与B、E、M、S对应的预设的词中位置标注状态还可以依次用字母A、B、C、D来表示,一个字母对应一个词中位置标注。预设的词中位置标注状态还可以用数字0、1、2、3来表示,以对各个词中位置标注状态进行区分,一个数字对应一个词中位置标注状态。位置标注的形式并不限定,只要可以表示该字符在所属词中的位置即可。
字向量所对应字符属于预设的各词中位置标注状态的概率,是字向量对应的字符在各个词中位置标注状态下的概率,比如:待分词的文本“中国人民的解放军”中的字符“中”对应的n维字向量“[1,0,2,0,2,3,4,...,n]”在各个词中位置标注状态B、E、M、S出现的概率分别为0.7、0.1、0.2、0.05,说明在这个待分词的文本中,字符“中”极有可能出现在该字符所属词的开头。
基于神经网络(Nerual Network)的机器学习(Machine Learning)模型可通过训练,学习到对输入的字符对应的字向量在各个词中位置标注状态下的概率进行准确预测的能力。
具体地,终端在将待分词的文本中的字符转化为对应的字向量后,就可以直接将每个字符对应的字向量作为输入,输入到基于神经网络的机器学习模型中,机器学习模型利用学习到的能力,输出各个字符对应的字向量对应的概率向量,概率向量是由该字符在各个词中位置标注状态下的概率组成的,因此从基于神经网络的机器学习模型的输出可以得到各个字符对应的向量在各词中位置标注状态下的概率。基于神经网络的机器学习模型具体可以是记忆网络模型。记忆网络模型比如可以是LSTM(Long Short-Term Memory,长短时记忆网络)或Bi-LSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)或RNN(Recurrent neural Network,循环神经网络)等。
S208,根据概率,分别确定文本中各字符所属的词中位置标注状态。
具体地,根据基于神经网络的机器学习模型输出的字符对应的字向量在各个词中位置标注状态的概率,终端可确定每个字符对应的唯一的词中位置状态标注。终端可以采用动态规划的算法来确定文本中各个字符对应的唯一的词中位置标注状态。动态规划算法具体可以是维特比算法(Viterbi Algorithm)或弗洛伊德算法(Floyd-Warshallalgorithm)。
举例说明:如图3所示,提供了将文本“中国人民的解放军”进行分词的流程示意图。待分词的文本300为“中国人民的解放军”,对应的字符为“中”“国”“人”“民”“的”“解”“放”“军”,各个字符对应的字向量V31,V32,……,V38,将字向量分别输入基于神经网络的机器学习模型后,得到的各个字向量在各个词中位置标注状态B、M、E、S对应的概率分别为:
PB1,PM1,PE1,PS1;
PB2,PM2,PE2,PS2;
……
PB8,PM8,PE8,PS8;
对各个字符在各词中位置标注状态下的概率进行运算,在当前字符在某一词中位置标注状态下对应的概率为最大值时,将该词中位置标注状态作为当前字符对应所属词的词中位置标注状态。比如,使用该算法对各个字符在各词中位置标注状态下的概率进行运算,得到各个字符的出现概率分别为PB1,PE2,PB3,PE4,PS5,PB6,PM7,PE8时得到的分词结果概率最大,从而根据这些概率得到待分词的文本“中国人民的解放军”对应的最大概率的“维特比路径”为:B,E,B,E,S,B,M,E,也就确定了各个字符在所属词的词中位置标注状态。
S210,按照文本中各字符所属的词中位置标注状态对文本进行分词。
具体地,终端根据得到的待分词的文本中各个字符对应的词中位置标注状态,对文本进行分词。比如,对于待分词的文本“中国人民的解放军”,得到的各个字符在所属词中的词中位置标注状态为B,E,B,E,S,B,M,E,对该文本进行分词得到对应的分词结果,即为“中国/人民/的/解放军”。
上述文本分词方法,将文本转化为适于机器学习模型的字向量后输入到机器学习模型进行处理,通过神经网络可以充分挖掘字向量所表示字符与文本中其它字符的联系,从而利用机器学习模型输出的概率,较为准确地确定文本中的各字符的词中位置状态,据此从文本中切分出词。利用机器学习模型进行文本分词,可以不再依赖于模板,通过学习挖掘文本中字符的内在关联,从而可以达到较高的分词准确率。
在一个实施例中,步骤S204包括:获取文本中每个字符相应的多维度的字符特征;多维度的字符特征表征相应的字符与文本中其余字符之间的相似度;根据文本中每个字符相应的多维度的字符特征,构建每个字符相应的字向量。
其中,字符特征表征相应字符与待分词的文本中其余字符之间的相似度。多维度的字符特征构成的字向量能够完整表征对应的字符。字向量可以通过基于神经网络的模型训练出来。字向量是分布式表示(distributed representation),也就是说仅看其中一维并不能完整准确的表达该字符在文本中的语义,但是组合到一起的多维度的字符特征就表达了这个字符的语义信息。
终端可以通过字符向量化模型把每个字符转换成实数性的字向量。这些模型的思路是:相关的字词一般都会在相同的文档里同时出现。例如,backpack、school、notebook和teacher一般都会一起出现,而school、tiger、apple和basketball一般都不会持续同时出现。基于这个相关的词会在相关的文档里出现的基本假设,把每个字符转换为字向量。
在一个实施例中,终端可通过基于神经网络的字向量转换模型得到待分词的文本中的每个字符对应的字符特征,多维字符特征构成了该字符对应的字向量。终端具体可以利用基于神经网络的字符向量化模型比如Word2vec模型的CBOW模型或Skip-Gram模型将待分词的文本转化为对应的字向量。
在一个实施例中,终端可以利用LSA(Latent Semantic Analysis,潜在语义分析)算法将文本中每个字符转换为字向量,以将每个字符映射到潜在的语义空间。
在上述实施例中,终端利用多维度的字符特征构建的字向量来表征文本中的字符,能够充分表达该字符在文本中的语义。
在一个实施例中,如图4所示,步骤S206包括:
S402,将字向量输入基于神经网络的机器学习模型。
其中,机器学习模型通常包括输入层(Input layer)、隐藏层(Hidden layer)和输出层(Output layer)。隐藏层也叫中间层,机器学习模型可通过中间层对输入层传递的数据进行线性或者非线性变换。隐藏层的数量可以是多个,每层隐藏层都有对应的模型参数,每层的模型参数可以是多个,每层隐藏层中一个模型参数对输入的数据进行线性或非线性变化,得到运算结果。每个隐藏层接收前一层的运算结果,经过自身的运算,对下一层输出本层的运算结果。其中,模型参数是模型结构中的各个参数,能反应模型输出和输入的对应关系。
具体地,终端可通过基于神经网络的机器学习模型的输入层将文本中各个字符对应的字向量传递至隐藏层中进行运算。
S404,在机器学习模型中,按照字向量相应的字符在文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率。
其中,字向量相应的字符在文本中的顺序,是与相应的字符在待分词的文本中出现的先后顺序一致的顺序。可以理解,待分词的文本中最开始的字符所对应的字向量最靠前。第一概率是基于神经网络模型的机器学习模型对每个字向量进行前向运算得到的对应各词中位置标注状态的概率。
在一个实施例中,终端可以按照字向量相应的字符在文本中的顺序,分别将各个字向量作为机器学习模型的前向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本中的首字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第一概率;在当前处理的字向量未对应首字符时,根据当前处理的字向量及前次处理的字向量对应的第一概率,得到当前处理的字向量相应字符属于预设的各词中位置标注状态的第一概率。
具体地,终端在将各个字向量通过输入层传递至隐藏层中后,可按照字向量相应的字符在待分词的文本中的顺序,对各个字符对应的字向量,通过基于神经网络的机器学习模型的隐藏层依次地对各字向量进行运算,循环地将前次的运算结果和当前字向量作为当次运算的输入值,进行当次运算,直至最后一次运算为止,依次得到各个字符对应的字向量在各个词中位置标注状态下的第一概率。可以理解,由于第一次处理时不存在前次运算,所以第一次运算时的输入值为第一个字向量,对与首字符对应的第一个字向量进行处理就可以得到相应字符属于预设的各词中位置标注状态的第一概率。
举例说明,待分词的文本中各个字符对应的字向量为V1、V2、V3、V4和V5。基于神经网络的机器学习模型可按照V1到V5的顺序依次地对各字向量对应的各词中位置标注状态的概率进行运算。比如,先将V1作为输入进行运算,得到运算结果P1,然后将P1和V2作为输入进行运算,得到运算结果P2,然后将P2和V3作为输入进行运算,得到运算结果W3,依次类推,直至得到最后一个字向量V5相应的运算结果P5。
在本实施例中,根据字向量相应的字符在待分词的文本中的顺序,终端循环地将前次运算结果和当前字向量作为当次运算的输入值,使得得到的当前字符对应各词中位置状态的概率既能反映当前字符所携带的信息,还能反映在前的字符所携带的信息,从而能够更加充分、完整地反映字符与文本中其它字符的联系,进而提高得到的各字符在词中位置状态对应的概率的准确性。
S406,在机器学习模型中,按照字向量相应的字符在文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率。
其中,字向量相应的字符在文本中的逆序,是与相应的字符在待分词的文本中出现的先后顺序的倒序。可以理解,待分词的文本中末尾的字符所对应的字向量为倒序的第一个字向量。第二概率是基于神经网络模型的机器学习模型对每个字向量进行反向运算得到的对应各词中位置标注状态的概率。
在一个实施例中,终端可以按照字向量相应的字符在文本中的逆序,分别将各个字向量分别作为机器学习模型的反向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本的末尾字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第二概率;在当前处理的字向量未对应末尾字符时,根据当前处理的字向量及前次处理的字向量对应的第二概率,得到当前处理的字向量相应字符在各个位置状态下的第二概率。
具体地,终端在将各个字向量通过输入层传递至隐藏层中后,可按照字向量相应的字符在待分词的文本中的逆序,对各个字符对应的字向量,通过基于神经网络的机器学习模型的隐层依次地对各字向量进行运算,循环地将前次的运算结果和当前字向量作为当次运算的输入值,进行当次运算,直至最后一次运算为止,依次得到各个字符对应的字向量在各个词中位置标注状态下的第二概率。可以理解,由于第一次处理时不存在前次运算,所以第一次运算时的输入值为待分词的文本中末尾字符所对应的字向量,对与末尾字符对应的第一个字向量进行处理就可以得到相应字符属于预设的各词中位置标注状态的第二概率。
举例说明,待分词的文本中各个字符对应的字向量为V1、V2、V3、V4和V5。基于神经网络的机器学习模型可按照V5到V1的顺序依次地对各字向量对应的各词中位置标注状态进行运算。比如,先将V5作为输入进行运算,得到运算结果P5’,然后将P5’和V4作为输入进行运算,得到运算结果P4’,然后将P4’和V3作为输入进行运算,得到运算结果P3’,依次类推,直至得到最后一个字向量V1相应的运算结果P1’。
在本实施例中,根据字向量相应的字符在待分词的文本中的逆序,终端循环地将前次运算结果和当前字向量作为当次运算的输入值,使得得到的当前字符对应各词中位置状态的概率既能反映当前字符所携带的信息,还能反映在后的字符所携带的信息,从而能够更加充分、完整地反映字符与文本中其它字符的联系,进而提高得到的各字符在词中位置状态对应的概率的准确性。
S408,根据每个字向量所对应字符属于预设的各词中位置标注状态的第一概率和第二概率,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
具体地,终端可在基于神经网络模型的机器学习模型的隐藏层中,按字向量对应字符在待分词文本中的先后顺序,利用隐藏层的模型参数对各个字向量对应的第一概率和第二概率进行运算,得到运算结果,也就是各个字向量所对应的字符在各个词中位置标注状态下的概率。其中,利用隐藏层的模型参数对词向量进行的运算可以是线性变换、非线性变换或者卷积变换等。
举例说明,终端在对待分词的文本中各个字符对应的字向量进行双向循环处理后,得到的每个字符对应的字向量在各词中位置标注状态下的第一概率和第二概率分别为:P1和P1’、P2和P2’……P5和P5’,然后按照字向量对应字符在待分词文本中的先后顺序,利用隐藏层的模型参数对P1和P1’进行运算,得到对应第一个字符对应的字向量V1在各词中位置标注状态下的概率W1,利用隐藏层的模型参数对P2和P2’进行运算,得到对应第一个字符对应的字向量V2在各词中位置标注状态下的概率W2,以此类推,从而各个字向量所对应的字符在各个词中位置标注状态下的概率。
在上述实施例中,按照各个字向量对应字符在待分词的文本中的先后顺序,双向循环地将前次运算结果和当前字向量作为当次运算的输入值,使得得到的各词中位置标注状态对应的概率既能反映本词所携带的信息,还能反映前后字符所携带的信息,从而能够更加充分、完整地反映字符与文本中其它字符的联系,进而提高得到的各字符在词中位置状态对应的概率的准确性。
在一个实施例中,步骤S210包括:根据文本中各字符所属的词中位置标注状态,确定各字符在所属的词中的位置;在文本中,从在所属的词中的位置为词首的字符起,到最近的在所属的词中的位置为词尾的字符止,切分出词。
具体地,终端可根据各个字符对应的词中位置标注状态对文本进行分词。在当前字符位于所属词的词首时,以该字符为起点,到最近的所属词的词尾对应的字符止,切分出词。
举例说明,对于待分词的文本“中国人民的解放军”,得到的各个字符对应的词中位置标注状态为B,E,B,E,S,B,M,E。终端根据各个字符的标注状态判断第一个字符所属词与第二个字符所属词为同一个词,且第一个字符对应所属词的词首,第二个字符对应所属词的词尾,以第一个字符“中”为所属词的起点,到最近的所属词的词尾对应的字符“国”止,对该文本进行切分得到对应的词为“中国”,以此类推,分别切分出词为“人民”、“解放军”。
在一个实施例中,步骤S210还包括:在文本中,将在所属的词中的位置为词中独占位置的字符切分为词。
具体地,终端在确定当前字符对应的字向量在词中位置标注状态S的概率最大时,则当前字符在所属词中的位置为词中独占位置,终端就可以对该单词的字符切分出词。比如在待分词的文本“中国人民的解放军”中,字符“的”对应的词中位置标注状态为S,则终端将字符“的”单独切分为词,最终得到的分词结果为“中国/人民/的/解放军”。
在上述实施例中,终端以各个字符对应的词中位置标注状态,确定每个字符对应的词的词首字符和词尾字符,以及词中独占位置的字符,就能根据词中位子标注状态对待分词的文本进行切分。由于每个字符对应的词中位置标注状态是基于神经网络的机器学习模型对字符对应的字向量进行运算得出的,能够较为准确地确定文本中的各字符的词中位置状态,从而据此从文本中切分出词。
在一个实施例中,如图5所示,文本分词方法可以包括对基于神经网络的机器学习模型进行训练的步骤,具体包括:
S502,获取目标语料。
其中,目标语料是用于训练基于神经网络的机器学习模型的数据。终端可直接从互联网上拉取目标语料。目标语料比如新闻、小说、传记和期刊等等。
S504,将目标语料中的字符分别转换为相应的训练字向量。
其中,训练字向量是用于将目标语料中的字符以数学形式进行表达的数据。
在一个实施例中,S504包括:获取目标语料中每个字符相应的多维度的字符特征;多维度的字符特征表征相应的字符与目标语料中其余字符之间的相似度;根据目标语料中每个字符相应的多维度的字符特征,构建每个字符相应的训练字向量。
在一个实施例中,对基于神经网络的机器学习模型进行训练的方法还包括:通过预训练分词模型对目标语料进行分词,得到相应的词序列;将词序列进行校正,得到目标语料的基准分词结果。
具体地,终端可以在获取到目标语料之后,根据各个字符在语义之间的相似性,将目标语料中的每个字符向量化,从而得到每个字符对应的训练字向量。将训练字向量作为输入,并将采用预训练分词模型对目标语料进行分词得到的基准分词结果作为预期输出来训练基于神经网络的机器学习模型。其中,预训练分词模型具体可以是结巴分词等。
在本实施例中,对目标语料进行分词得到相应的词序列后进行校正,将校正后得到的基准分词结果作为预期输出,能够提升机器学习模型对目标语料进行分词的准确性。
S506,将训练字向量输入基于神经网络的机器学习模型,获得训练字向量所对应字符属于预设的各词中位置标注状态的概率。
S508,根据训练字向量所对应字符属于预设的各词中位置标注状态的概率,分别确定目标语料中各字符所属的词中位置标注状态。
S510,按照目标语料中各字符所属的词中位置标注状态对目标语料进行分词,得到预测分词结果。
S512,依据预测分词结果与目标语料的基准分词结果之间的差异,调整机器学习模型的模型参数,继续训练直至差异符合预设条件。
具体地,终端可根据预测分词结果与目标语料的基准分词结果的差异,构建损失函数,按照最小化损失函数的方向调整基于神经网络的机器学习模型的模型参数,通过更新模型参数缩小两者之间的差距,不断优化机器学习模型的模型参数,采用差距最小化原则确定使两者之间差距最小的模型参数,训练基于神经网络的机器学习模型。
上述实施例中,通过采用目标语料中的字符对应的训练字向量和目标语料对应的基准分词结果来对机器学习模型进行训练,训练机器学习模型的过程在于对各个字向量对应的字符在各个标注状态下的概率进行准确运算。通过神经网络可以充分挖掘训练字向量所表示字符与目标语料中其它字符的联系,从而利用机器学习模型输出的概率,能够较为准确地反映目标语料中各个字符在各词中位置状态的几率,从而确定目标语料中各个字符的词中位置状态,据此训练得到的机器学习模型能够准确的对待分词的文本进行分词。
在一个实施例中,步骤S202包括:获取即时消息;提取即时消息中的文本内容;根据文本内容确定待分词的文本。
其中,即时消息是终端上的即时通信应用接收的交互信息。即时消息中可以包括文字、语言、视频、图片或符号等等。即时通信应用例如微信(WeChat)或腾讯企点等等。
具体地,终端可以通过网络拉取即时消息,也可以通过网络接收服务器发送的即时消息。终端在获取到即时消息后,从即时消息中提取出文本内容,将文本内容作为确定的待分词的文本,以进行对文本内容分词。
在本实施例中,将即时消息中的文本内容确定为待分词的文本,通过基于神经网络的机器学习模型对即时消息中的文本内容进行分词,使得文本分词方法还可以应用于即时通信应用中,可应用于从大量的即时消息中快速的找到关键信息的场景。
在一个实施例中,文本分词方法还包括:将对待分词的文本进行分词得到的词分别展示;检测作用于展示的词的选中操作;将选中操作所作用的词构成重组文本。
其中,选中操作是触发的对分词得到的每个词进行选择的操作。选中操作可以是单击操作、长按操作或拖曳操作中的至少一种。
在一个实施例中,如图6所示,终端可提供素材界面602对即时消息中的文本内容分词得到的词604进行展示,并在检测到作用于展示的词的选中操作606时,将选中操作作用的词显示在重组界面608中,并将显示在重组界面608中的词进行重组,得到重组文本610。
在一个实施例中,将选中操作所作用的词构成重组文本的步骤包括:将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
其中,处于选中状态的词的排序是当前显示在重组界面中的各个词的排序。预设操作是触发将处于选中状态的词进行重组的操作。预设操作可以是复制操作或分享操作等等。
具体地,终端可以将重组界面中选中的词置于选中状态,并记录此时显示的词的排序,在检测到对当前排序的各个词进行重组的触发操作时,对重组界面中的词进行重组。
在一个实施例中,终端可在检测到作用于处于选中状态的词的拖曳操作时,根据拖曳操作的拖曳距离和方向来对显示的词进行重新排序,并记录此时显示的词的排序,以对选中的词以重新排序后的顺序进行重组。
在上述实施例中,终端通过对即时消息中的文本内容进行分词得到的词进行展示,并能将选中的词进行重组,使得终端能够快速从即时消息的文本内容提取关键信息。
如图7所示,为一个具体的实施例中文本分词方法的流程示意图,具体包括以下步骤:
S701,通过预训练分词模型对目标语料进行分词,得到相应的词序列;将词序列进行校正,得到目标语料获取目标语料。
S702,将目标语料中的字符分别转换为相应的训练字向量。
S703,将训练字向量输入基于神经网络的机器学习模型,获得训练字向量所对应字符属于预设的各词中位置标注状态的概率。
S704,根据训练字向量所对应字符属于预设的各词中位置标注状态的概率,分别确定目标语料中各字符所属的词中位置标注状态。
S705,按照目标语料中各字符所属的词中位置标注状态对目标语料进行分词,得到预测分词结果。
S706,依据预测分词结果与目标语料的基准分词结果之间的差异,调整机器学习模型的模型参数,继续训练直至差异符合预设条件。
S707,获取即时消息;提取即时消息中的文本内容;根据文本内容确定待分词的文本。
S708,将文本中的字符分别转换为相应的字向量。
S709,将字向量输入基于神经网络的机器学习模型。
S710,按照字向量相应的字符在文本中的顺序,分别将各个字向量作为机器学习模型的前向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本中的首字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第一概率;在当前处理的字向量未对应首字符时,根据当前处理的字向量及前次处理的字向量对应的第一概率,得到当前处理的字向量相应字符属于预设的各词中位置标注状态的第一概率。
S711,按照字向量相应的字符在文本中的逆序,分别将各个字向量分别作为机器学习模型的反向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本的末尾字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第二概率;在当前处理的字向量未对应末尾字符时,根据当前处理的字向量及前次处理的字向量对应的第二概率,得到当前处理的字向量相应字符在各个位置状态下的第二概率。
S712,根据每个字向量所对应字符属于预设的各词中位置标注状态的第一概率和第二概率,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
S713,根据概率,分别确定文本中各字符所属的词中位置标注状态。
S714,根据文本中各字符所属的词中位置标注状态,确定各字符在所属的词中的位置;在文本中,从在所属的词中的位置为词首的字符起,到最近的在所属的词中的位置为词尾的字符止,切分出词;在文本中,将在所属的词中的位置为词中独占位置的字符切分为词。
S715,将对待分词的文本进行分词得到的词分别展示;检测作用于展示的词的选中操作;将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
在本实施例中,将文本转化为适于机器学习模型的字向量后输入到机器学习模型进行处理,通过神经网络可以充分挖掘字向量所表示字符与文本中其它字符的联系,从而利用机器学习模型输出的概率,较为准确地确定文本中的各字符的词中位置状态,据此从文本中切分出词。利用机器学习模型进行文本分词,可以不再依赖于模板,通过学习挖掘文本中字符的内在关联,从而可以达到较高的分词准确率。
应该理解的是,虽然上述实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图8为一个实施例中即时消息处理方法的应用环境图。参照图8,该即时消息处理方法应用于即时消息处理系统。该即时消息处理系统包括终端810和服务器820。终端810和服务器820通过网络连接。终端810具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器820可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图9所示,在一个实施例中,提供了一种即时消息处理方法。本实施例主要以该方法应用于上述图8中的终端810来举例说明。参照图9,该文本分词方法具体包括如下步骤:
S902,获取即时消息。
S904,提取即时消息中的文本内容,得到待分词的文本。
S906,将文本发送至服务器。
S908,接收服务器反馈的对文本进行分词得到的词;词是采用基于神经网络的机器学习模型对文本进行分词得到的。
具体地,终端可以在检测到针对即时消息的长按操作时,提供文本编辑菜单栏。文本编辑菜单栏包括编辑选项。终端在检测到针对编辑选项的触发操作时,从即时消息中提取的文本内容,并将该文本内容发送至服务器。服务器采用基于神经网络的机器学习模型对该文本内容进行分词后向终端返回分词的结果。
在一个实施例中,进行分词得到的词是采用上述任一实施例中的文本分词方法对文本进行分词得到的。
S910,将分词得到的词分别展示。
S912,检测作用于展示的词的选中操作。
S914,将选中操作所作用的词构成重组文本。
在一个实施例中,终端可以将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
在一个实施例中,终端可在检测到作用于处于选中状态的词的拖曳操作时,根据拖曳操作的拖曳距离和方向来对显示的词进行重新排序,并记录此时显示的词的排序,以对选中的词以重新排序后的顺序进行重组。
上述即时消息处理方法,将从即时消息中提取到的文本内容作为待分词的文本,并发送至服务器,就可以接收到服务器反馈的对即时消息中的文本内容进行分词得到的词。其中,服务器采用的文本分词方法是训练好的基于神经网络的机器学习模型,可以提升了对文本内容进行分词的准确率。在将从文本中分词得到的词进行展示后,可以在检测到作用于上述词的选中操作时,对选中的词进行重组,能够快速又准确地提取到即时消息中的关键信息。
如图10所示,在一个实施例中,提供了一种文本分词装置1000。参照图10,该文本处理装置1000包括:文本获取模块1001、字向量生成模块1002、概率获取模块1003、词中位置标注状态确定模块1004和分词模块1005。
文本获取模块1001,用于获取待分词的文本。
字向量生成模块1002,用于将文本中的字符分别转化为相应的字向量;
概率获取模块1003,用于将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
词中位置标注状态确定模块1004,用于根据概率,分别确定文本中各字符所属的词中位置标注状态。
分词模块1005,用于按照文本中各字符所属的词中位置标注状态对文本进行分词。
上述文本分词装置1000,将从即时消息中提取到的文本内容作为待分词的文本,并发送至服务器,就可以接收到服务器反馈的对即时消息中的文本内容进行分词得到的词。其中,服务器采用的文本分词方法是训练好的基于神经网络的机器学习模型,可以提升了对文本内容进行分词的准确率。在将从文本中分词得到的词进行展示后,可以在检测到作用于上述词的选中操作时,对选中的词进行重组,能够快速又准确地提取到即时消息中的关键信息。
在一个实施例中,字向量生成模块1002包括:字符特征获取模块和字向量构建模块。字符特征获取模块用于获取文本中每个字符相应的多维度的字符特征;多维度的字符特征表征相应的字符与文本中其余字符之间的相似度;字向量构建模块用于根据文本中每个字符相应的多维度的字符特征,构建每个字符相应的字向量。
在一个实施例中,概率获取模块1003包括:字向量输入模块、第一概率获取模块、第二概率获取模块和概率计算模块。字向量输入模块用于将字向量输入基于神经网络的机器学习模型;第一概率获取模块用于在机器学习模型中,按照字向量相应的字符在文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率;第二概率获取模块用于在机器学习模型中,按照字向量相应的字符在文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率;概率计算模块用于根据每个字向量所对应字符属于预设的各词中位置标注状态的第一概率和第二概率,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
在一个实施例中,第一概率获取模块还用于按照字向量相应的字符在文本中的顺序,分别将各个字向量作为机器学习模型的前向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本中的首字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第一概率;在当前处理的字向量未对应首字符时,根据当前处理的字向量及前次处理的字向量对应的第一概率,得到当前处理的字向量相应字符属于预设的各词中位置标注状态的第一概率。
在一个实施例中,第二概率获取模块还用于按照字向量相应的字符在文本中的逆序,分别将各个字向量分别作为机器学习模型的反向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本的末尾字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第二概率;在当前处理的字向量未对应末尾字符时,根据当前处理的字向量及前次处理的字向量对应的第二概率,得到当前处理的字向量相应字符在各个位置状态下的第二概率。
在一个实施例中,分词模块1005还包括字符位置确定模块和切分模块。字符位置确定模块用于根据文本中各字符所属的词中位置标注状态,确定各字符在所属的词中的位置;切分模块用于在文本中,从在所属的词中的位置为词首的字符起,到最近的在所属的词中的位置为词尾的字符止,切分出词。
在一个实施例中,切分模块还用于在文本中,将在所属的词中的位置为词中独占位置的字符切分为词。
在一个实施例中,如图11所示,文本分词装置1000还包括:目标语料获取模块1006和模型参数调整模块1007。
目标语料获取模块1006,用于获取目标语料。
字向量生成模块1002还用于将目标语料中的字符分别转换为相应的训练字向量。
概率获取模块1003还用于将训练字向量输入基于神经网络的机器学习模型,获得训练字向量所对应字符属于预设的各词中位置标注状态的概率。
词中位置标注状态确定模块1004还用于根据训练字向量所对应字符属于预设的各词中位置标注状态的概率,分别确定目标语料中各字符所属的词中位置标注状态。
分词模块1005还用于按照目标语料中各字符所属的词中位置标注状态对目标语料进行分词,得到预测分词结果
模型参数调整模块1007,用于依据预测分词结果与目标语料的基准分词结果之间的差异,调整机器学习模型的模型参数,继续训练直至差异符合预设条件。
在一个实施例中,文本分词装置1000还可以包括:词序列获取模块和基准分词结果获取模块。词序列获取模块,用于通过预训练分词模型对目标语料进行分词,得到相应的词序列。基准分词结果获取模块,用于将词序列进行校正,得到目标语料的基准分词结果。
在一个实施例中,文本获取模块1001还用于获取即时消息;提取即时消息中的文本内容;根据文本内容确定待分词的文本;文本分词装置1000还包括:展示模块、检测模块和文本重组模块。
展示模块,用于将对待分词的文本进行分词得到的词分别展示。
检测模块,用于检测作用于展示的词的选中操作。
文本重组模块,用于将选中操作所作用的词构成重组文本。
如图12所示,在一个实施例中,提供了一种即时消息处理装置1200。参照图12,该即时消息处理装置1200包括:即时消息获取模块1201、待分词的文本获取模块1202、发送模块1203、接收模块1204、展示模块1205、检测模块1206和文本重组模块1207。
即时消息获取模块1201,用于获取即时消息。
待分词的文本获取模块1202,用于提取即时消息中的文本内容,得到待分词的文本。
发送模块1203,用于将文本发送至服务器。
接收模块1204,用于接收服务器反馈的对文本进行分词得到的词;词是采用基于神经网络的机器学习模型对文本进行分词得到的。
展示模块1205,用于将分词得到的词分别展示。
检测模块1206,用于检测作用于展示的词的选中操作。
文本重组模块1207,用于将选中操作所作用的词构成重组文本。
上述即时消息处理装置1200,将从即时消息中提取到的文本内容作为待分词的文本,并发送至服务器,就可以接收到服务器反馈的对即时消息中的文本内容进行分词得到的词。其中,服务器采用的文本分词方法是训练好的基于神经网络的机器学习模型,可以提升了对文本内容进行分词的准确率。在将从文本中分词得到的词进行展示后,可以在检测到作用于上述词的选中操作时,对选中的词进行重组,能够快速又准确地提取到即时消息中的关键信息。
在一个实施例中,即时消息处理装置1200中的词是采用任一项的文本分词装置1000对文本进行分词得到的。
在一个实施例中,文本重组模块1207还用于将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
图13示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图13所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本分词方法和/或即时消息处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本分词方法和/或即时消息处理方法。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本分词装置和即时消息处理装置均可以实现为一种计算机程序的形式,计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本分词装置和/或即时消息处理装置的各个程序模块,比如,图10所示的文本获取模块1001、字向量生成模块1002、概率获取模块1003、词中位置标注状态确定模块1004和分词模块1005。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本分词方法和/或即时消息处理方法中的步骤。
例如,图13所示的计算机设备可以通过如图10所示的文本分词装置中的文本获取模块1001执行步骤S202。通过字向量生成模块1002执行步骤S204。通过概率获取模块1003执行步骤S206。通过词中位置标注状态确定模块1004执行步骤S208。通过分词模块1005执行步骤S210。
再例如,图13所示的计算机设备可以通过如图12所示的即时消息处理装置1200中的即时消息获取模块1201执行步骤S902。通过待分词的文本获取模块1202执行步骤S904。通过发送模块1203执行步骤S906。通过接收模块1204执行步骤S908。通过展示模块1205执行步骤S910。通过检测模块1206执行步骤S912。通过文本重组模块1207执行步骤S914。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,使得处理器执行以下步骤:获取待分词的文本;将文本中的字符分别转化为相应的字向量;将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率;根据概率,分别确定文本中各字符所属的词中位置标注状态;按照文本中各字符所属的词中位置标注状态对文本进行分词。
在一个实施例中,计算机程序使得处理器在执行将文本中的字符分别转化为相应的字向量的步骤时具体还执行以下步骤:获取文本中每个字符相应的多维度的字符特征;多维度的字符特征表征相应的字符与文本中其余字符之间的相似度;根据文本中每个字符相应的多维度的字符特征,构建每个字符相应的字向量。
在一个实施例中,计算机程序使得处理器在执行将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率的步骤时具体还执行以下步骤:将字向量输入基于神经网络的机器学习模型;在机器学习模型中,按照字向量相应的字符在文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率;在机器学习模型中,按照字向量相应的字符在文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率;根据每个字向量所对应字符属于预设的各词中位置标注状态的第一概率和第二概率,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
在一个实施例中,计算机程序使得处理器在执行在机器学习模型中,按照字向量相应的字符在文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率的步骤时具体还执行以下步骤:按照字向量相应的字符在文本中的顺序,分别将各个字向量作为机器学习模型的前向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本中的首字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第一概率;在当前处理的字向量未对应首字符时,根据当前处理的字向量及前次处理的字向量对应的第一概率,得到当前处理的字向量相应字符属于预设的各词中位置标注状态的第一概率。
在一个实施例中,计算机程序使得处理器在执行在机器学习模型中,按照字向量相应的字符在文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率的步骤时具体还执行以下步骤:按照字向量相应的字符在文本中的逆序,分别将各个字向量分别作为机器学习模型的反向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本的末尾字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第二概率;在当前处理的字向量未对应末尾字符时,根据当前处理的字向量及前次处理的字向量对应的第二概率,得到当前处理的字向量相应字符在各个位置状态下的第二概率。
在一个实施例中,计算机程序使得处理器在执行按照文本中各字符所属的词中位置标注状态对文本进行分词的步骤时具体还执行以下步骤:根据文本中各字符所属的词中位置标注状态,确定各字符在所属的词中的位置;在文本中,从在所属的词中的位置为词首的字符起,到最近的在所属的词中的位置为词尾的字符止,切分出词。
在一个实施例中,计算机程序使得处理器在执行按照文本中各字符所属的词中位置标注状态对文本进行分词的步骤时具体还执行以下步骤:在文本中,将在所属的词中的位置为词中独占位置的字符切分为词。
在一个实施例中,计算机程序被处理器执行时,还使得处理器执行以下步骤:获取目标语料;将目标语料中的字符分别转换为相应的训练字向量;将训练字向量输入基于神经网络的机器学习模型,获得训练字向量所对应字符属于预设的各词中位置标注状态的概率;根据训练字向量所对应字符属于预设的各词中位置标注状态的概率,分别确定目标语料中各字符所属的词中位置标注状态;按照目标语料中各字符所属的词中位置标注状态对目标语料进行分词,得到预测分词结果;依据预测分词结果与目标语料的基准分词结果之间的差异,调整机器学习模型的模型参数,继续训练直至差异符合预设条件。
在一个实施例中,计算机程序被处理器执行时,还使得处理器执行以下步骤:通过预训练分词模型对目标语料进行分词,得到相应的词序列;将词序列进行校正,得到目标语料的基准分词结果。
在一个实施例中,计算机程序使得处理器在执行获取待分词的文本的步骤时具体还执行以下步骤:获取即时消息;提取即时消息中的文本内容;根据文本内容确定待分词的文本。
在一个实施例中,计算机程序被处理器执行时,还使得处理器执行以下步骤:将对待分词的文本进行分词得到的词分别展示;检测作用于展示的词的选中操作;将选中操作所作用的词构成重组文本。
在一个实施例中,计算机程序使得处理器在执行将选中操作所作用的词构成重组文本的步骤时具体还执行以下步骤:将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
上述存储介质,将文本转化为适于机器学习模型的字向量后输入到机器学习模型进行处理,通过神经网络可以充分挖掘字向量所表示字符与文本中其它字符的联系,从而利用机器学习模型输出的概率,较为准确地确定文本中的各字符的词中位置状态,据此从文本中切分出词。利用机器学习模型进行文本分词,可以不再依赖于模板,通过学习挖掘文本中字符的内在关联,从而可以达到较高的分词准确率。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待分词的文本;将文本中的字符分别转化为相应的字向量;将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率;根据概率,分别确定文本中各字符所属的词中位置标注状态;按照文本中各字符所属的词中位置标注状态对文本进行分词。
在一个实施例中,计算机程序使得处理器在执行将文本中的字符分别转化为相应的字向量的步骤时具体还执行以下步骤:获取文本中每个字符相应的多维度的字符特征;多维度的字符特征表征相应的字符与文本中其余字符之间的相似度;根据文本中每个字符相应的多维度的字符特征,构建每个字符相应的字向量。
在一个实施例中,计算机程序使得处理器在执行将字向量输入基于神经网络的机器学习模型,获得字向量所对应字符属于预设的各词中位置标注状态的概率的步骤时具体还执行以下步骤:将字向量输入基于神经网络的机器学习模型;在机器学习模型中,按照字向量相应的字符在文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率;在机器学习模型中,按照字向量相应的字符在文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率;根据每个字向量所对应字符属于预设的各词中位置标注状态的第一概率和第二概率,获得字向量所对应字符属于预设的各词中位置标注状态的概率。
在一个实施例中,计算机程序使得处理器在执行在机器学习模型中,按照字向量相应的字符在文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率的步骤时具体还执行以下步骤:按照字向量相应的字符在文本中的顺序,分别将各个字向量作为机器学习模型的前向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本中的首字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第一概率;在当前处理的字向量未对应首字符时,根据当前处理的字向量及前次处理的字向量对应的第一概率,得到当前处理的字向量相应字符属于预设的各词中位置标注状态的第一概率。
在一个实施例中,计算机程序使得处理器在执行在机器学习模型中,按照字向量相应的字符在文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率的步骤时具体还执行以下步骤:按照字向量相应的字符在文本中的逆序,分别将各个字向量分别作为机器学习模型的反向传播隐藏层当前处理的字向量;在当前处理的字向量对应文本的末尾字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第二概率;在当前处理的字向量未对应末尾字符时,根据当前处理的字向量及前次处理的字向量对应的第二概率,得到当前处理的字向量相应字符在各个位置状态下的第二概率。
在一个实施例中,计算机程序使得处理器在执行按照文本中各字符所属的词中位置标注状态对文本进行分词的步骤时具体还执行以下步骤:根据文本中各字符所属的词中位置标注状态,确定各字符在所属的词中的位置;在文本中,从在所属的词中的位置为词首的字符起,到最近的在所属的词中的位置为词尾的字符止,切分出词。
在一个实施例中,计算机程序使得处理器在执行按照文本中各字符所属的词中位置标注状态对文本进行分词的步骤时具体还执行以下步骤:在文本中,将在所属的词中的位置为词中独占位置的字符切分为词。
在一个实施例中,计算机程序被处理器执行时,还使得处理器执行以下步骤:获取目标语料;将目标语料中的字符分别转换为相应的训练字向量;将训练字向量输入基于神经网络的机器学习模型,获得训练字向量所对应字符属于预设的各词中位置标注状态的概率;根据训练字向量所对应字符属于预设的各词中位置标注状态的概率,分别确定目标语料中各字符所属的词中位置标注状态;按照目标语料中各字符所属的词中位置标注状态对目标语料进行分词,得到预测分词结果;依据预测分词结果与目标语料的基准分词结果之间的差异,调整机器学习模型的模型参数,继续训练直至差异符合预设条件。
在一个实施例中,计算机程序被处理器执行时,还使得处理器执行以下步骤:通过预训练分词模型对目标语料进行分词,得到相应的词序列;将词序列进行校正,得到目标语料的基准分词结果。
在一个实施例中,计算机程序使得处理器在执行获取待分词的文本的步骤时具体还执行以下步骤:获取即时消息;提取即时消息中的文本内容;根据文本内容确定待分词的文本。
在一个实施例中,计算机程序被处理器执行时,还使得处理器执行以下步骤:将对待分词的文本进行分词得到的词分别展示;检测作用于展示的词的选中操作;将选中操作所作用的词构成重组文本。
在一个实施例中,计算机程序使得处理器在执行将选中操作所作用的词构成重组文本的步骤时具体还执行以下步骤:将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
上述计算机设备,将文本转化为适于机器学习模型的字向量后输入到机器学习模型进行处理,通过神经网络可以充分挖掘字向量所表示字符与文本中其它字符的联系,从而利用机器学习模型输出的概率,较为准确地确定文本中的各字符的词中位置状态,据此从文本中切分出词。利用机器学习模型进行文本分词,可以不再依赖于模板,通过学习挖掘文本中字符的内在关联,从而可以达到较高的分词准确率。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,使得处理器执行以下步骤:获取即时消息;提取即时消息中的文本内容,得到待分词的文本;将文本发送至服务器;接收服务器反馈的对文本进行分词得到的词;词是采用基于神经网络的机器学习模型对文本进行分词得到的;
将分词得到的词分别展示;检测作用于展示的词的选中操作;将选中操作所作用的词构成重组文本。
在一个实施例中,分词得到的词是采用上述任一项的文本分词方法对文本进行分词得到的。
在一个实施例中,计算机程序使得处理器在执行将选中操作所作用的词构成重组文本的步骤时具体还执行以下步骤:将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
上述存储介质,将从即时消息中提取到的文本内容作为待分词的文本,并发送至服务器,就可以接收到服务器反馈的对即时消息中的文本内容进行分词得到的词。其中,服务器采用的文本分词方法是训练好的基于神经网络的机器学习模型,可以提升了对文本内容进行分词的准确率。在将从文本中分词得到的词进行展示后,可以在检测到作用于上述词的选中操作时,对选中的词进行重组,能够快速又准确地提取到即时消息中的关键信息。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取即时消息;提取即时消息中的文本内容,得到待分词的文本;将文本发送至服务器;接收服务器反馈的对文本进行分词得到的词;词是采用基于神经网络的机器学习模型对文本进行分词得到的;
将分词得到的词分别展示;检测作用于展示的词的选中操作;将选中操作所作用的词构成重组文本。
在一个实施例中,分词得到的词是采用上述任一项的文本分词方法对文本进行分词得到的。
在一个实施例中,计算机程序使得处理器在执行将选中操作所作用的词构成重组文本的步骤时具体还执行以下步骤:将选中操作所作用的词置为选中状态;记录处于选中状态的词的排序;检测到预设操作时,将当前处于选中状态的词按照记录的排序组合为重组文本。
上述计算机设备,将从即时消息中提取到的文本内容作为待分词的文本,并发送至服务器,就可以接收到服务器反馈的对即时消息中的文本内容进行分词得到的词。其中,服务器采用的文本分词方法是训练好的基于神经网络的机器学习模型,可以提升了对文本内容进行分词的准确率。在将从文本中分词得到的词进行展示后,可以在检测到作用于上述词的选中操作时,对选中的词进行重组,能够快速又准确地提取到即时消息中的关键信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本分词方法,包括:
获取待分词的文本;
将所述文本中的字符分别转化为相应的字向量;
将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率;
根据所述概率,分别确定所述文本中各字符所属的词中位置标注状态;
按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词。
2.根据权利要求1所述的方法,其特征在于,所述将所述文本中的字符分别转化为相应的字向量,包括:
获取所述文本中每个字符相应的多维度的字符特征;所述多维度的字符特征表征相应的字符与所述文本中其余字符之间的相似度;
根据所述文本中每个字符相应的多维度的字符特征,构建所述每个字符相应的字向量。
3.根据权利要求1所述的方法,其特征在于,所述将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率,包括:
将所述字向量输入基于神经网络的机器学习模型;
在所述机器学习模型中,按照所述字向量相应的字符在所述文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率;
在所述机器学习模型中,按照所述字向量相应的字符在所述文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率;
根据每个字向量所对应字符属于预设的各词中位置标注状态的所述第一概率和所述第二概率,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率。
4.根据权利要求3所述的方法,其特征在于,所述在所述机器学习模型中,按照所述字向量相应的字符在所述文本中的顺序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第一概率,包括:
按照所述字向量相应的字符在所述文本中的顺序,分别将各个字向量作为所述机器学习模型的前向传播隐藏层当前处理的字向量;
在当前处理的字向量对应所述文本中的首字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第一概率;
在当前处理的字向量未对应所述首字符时,根据当前处理的字向量及前次处理的字向量对应的第一概率,得到当前处理的字向量相应字符属于预设的各词中位置标注状态的第一概率。
5.根据权利要求3所述的方法,其特征在于,所述在所述机器学习模型中,按照所述字向量相应的字符在所述文本中的逆序,依次计算每个字向量所对应字符属于预设的各词中位置标注状态的第二概率,包括:
按照所述字向量相应的字符在所述文本中的逆序,分别将各个字向量分别作为所述机器学习模型的反向传播隐藏层当前处理的字向量;
在当前处理的字向量对应所述文本的末尾字符时,根据当前处理的字向量得到相应字符属于预设的各词中位置标注状态的第二概率;
在当前处理的字向量未对应所述末尾字符时,根据当前处理的字向量及前次处理的字向量对应的第二概率,得到当前处理的字向量相应字符在各个位置状态下的第二概率。
6.根据权利要求1所述的方法,其特征在于,所述按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词,包括:
根据所述文本中各字符所属的词中位置标注状态,确定所述各字符在所属的词中的位置;
在所述文本中,从在所属的词中的位置为词首的字符起,到最近的在所属的词中的位置为词尾的字符止,切分出词。
7.根据权利要求6所述的方法,其特征在于,所述按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词还包括:
在所述文本中,将在所属的词中的位置为词中独占位置的字符切分为词。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标语料;
将所述目标语料中的字符分别转换为相应的训练字向量;
将所述训练字向量输入基于神经网络的机器学习模型,获得所述训练字向量所对应字符属于预设的各词中位置标注状态的概率;
根据所述训练字向量所对应字符属于预设的各词中位置标注状态的概率,分别确定所述目标语料中各字符所属的词中位置标注状态;
按照所述目标语料中各字符所属的词中位置标注状态对所述目标语料进行分词,得到预测分词结果;
依据所述预测分词结果与所述目标语料的基准分词结果之间的差异,调整所述机器学习模型的模型参数,继续训练直至所述差异符合预设条件。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
通过预训练分词模型对所述目标语料进行分词,得到相应的词序列;
将所述词序列进行校正,得到所述目标语料的基准分词结果。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述获取待分词的文本包括:
获取即时消息;
提取所述即时消息中的文本内容;
根据所述文本内容确定待分词的文本。
11.一种即时消息处理方法,包括:
获取即时消息;
提取所述即时消息中的文本内容,得到待分词的文本;
将所述文本发送至服务器;
接收所述服务器反馈的对所述文本进行分词得到的词;所述词是采用基于神经网络的机器学习模型对所述文本进行分词得到的;
将分词得到的词分别展示;
检测作用于展示的所述词的选中操作;
将所述选中操作所作用的词构成重组文本。
12.一种文本分词装置,其特征在于,所述装置包括:
文本获取模块,用于获取待分词的文本;
字向量生成模块,用于将所述文本中的字符分别转化为相应的字向量;
概率获取模块,用于将所述字向量输入基于神经网络的机器学习模型,获得所述字向量所对应字符属于预设的各词中位置标注状态的概率;
词中位置标注状态确定模块,用于根据所述概率,分别确定所述文本中各字符所属的词中位置标注状态;
分词模块,用于按照所述文本中各字符所属的词中位置标注状态对所述文本进行分词。
13.一种即时消息处理装置,包括:
即时消息获取模块,用于获取即时消息;
待分词的文本获取模块,用于提取所述即时消息中的文本内容,得到待分词的文本;
发送模块,用于将所述文本发送至服务器;
接收模块,用于接收所述服务器反馈的对所述文本进行分词得到的词;所述词是采用基于神经网络的机器学习模型对所述文本进行分词得到的;
展示模块,用于将分词得到的词分别展示;
检测模块,用于检测作用于展示的所述词的选中操作;
文本重组模块,用于将所述选中操作所作用的词构成重组文本。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201711266278.3A 2017-12-05 2017-12-05 文本分词、即时消息处理方法和装置 Active CN108334492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711266278.3A CN108334492B (zh) 2017-12-05 2017-12-05 文本分词、即时消息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711266278.3A CN108334492B (zh) 2017-12-05 2017-12-05 文本分词、即时消息处理方法和装置

Publications (2)

Publication Number Publication Date
CN108334492A true CN108334492A (zh) 2018-07-27
CN108334492B CN108334492B (zh) 2021-11-02

Family

ID=62923212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711266278.3A Active CN108334492B (zh) 2017-12-05 2017-12-05 文本分词、即时消息处理方法和装置

Country Status (1)

Country Link
CN (1) CN108334492B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472022A (zh) * 2018-10-15 2019-03-15 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
CN110175273A (zh) * 2019-05-22 2019-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110263320A (zh) * 2019-05-05 2019-09-20 清华大学 一种基于专用语料库字向量的无监督中文分词方法
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110795938A (zh) * 2019-11-11 2020-02-14 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN110969016A (zh) * 2018-09-27 2020-04-07 普天信息技术有限公司 分词处理方法及装置
CN110991182A (zh) * 2019-12-03 2020-04-10 东软集团股份有限公司 用于专业领域的分词方法、装置、存储介质及电子设备
CN111274384A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 一种文本标注方法及其设备、计算机存储介质
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
WO2020232864A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN112101021A (zh) * 2020-09-03 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种实现标准词映射的方法、装置及设备
CN112307167A (zh) * 2020-10-30 2021-02-02 广州华多网络科技有限公司 文本切句方法、装置、计算机设备和存储介质
CN113609850A (zh) * 2021-07-02 2021-11-05 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质
WO2022061877A1 (zh) * 2020-09-28 2022-03-31 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140039877A1 (en) * 2012-08-02 2014-02-06 American Express Travel Related Services Company, Inc. Systems and Methods for Semantic Information Retrieval
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
US20140189485A1 (en) * 2007-01-05 2014-07-03 Linguastat, Inc. Systems and methods for identifying claims in electronic text
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN105786883A (zh) * 2014-12-24 2016-07-20 腾讯科技(深圳)有限公司 信息查询方法和装置
CN105955953A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种分词系统
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140189485A1 (en) * 2007-01-05 2014-07-03 Linguastat, Inc. Systems and methods for identifying claims in electronic text
US20140039877A1 (en) * 2012-08-02 2014-02-06 American Express Travel Related Services Company, Inc. Systems and Methods for Semantic Information Retrieval
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN105786883A (zh) * 2014-12-24 2016-07-20 腾讯科技(深圳)有限公司 信息查询方法和装置
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
CN105955953A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种分词系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李鑫鑫: "自然语言处理中序列标注问题的联合学习方法研究", 《中国博士学位论文全文数据库》 *
颜军: "基于条件随机场的中文分词研究与应用", 《万方数据库》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969016B (zh) * 2018-09-27 2023-06-23 普天信息技术有限公司 分词处理方法及装置
CN110969016A (zh) * 2018-09-27 2020-04-07 普天信息技术有限公司 分词处理方法及装置
CN109472022A (zh) * 2018-10-15 2019-03-15 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN109472022B (zh) * 2018-10-15 2024-09-17 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN111274384B (zh) * 2018-12-05 2024-02-06 北京京东尚科信息技术有限公司 一种文本标注方法及其设备、计算机存储介质
CN111274384A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 一种文本标注方法及其设备、计算机存储介质
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110263320A (zh) * 2019-05-05 2019-09-20 清华大学 一种基于专用语料库字向量的无监督中文分词方法
WO2020232864A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN110175273A (zh) * 2019-05-22 2019-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110175273B (zh) * 2019-05-22 2021-09-07 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
EP3819808A1 (en) * 2019-11-11 2021-05-12 Beijing Xiaomi Intelligent Technology Co., Ltd. Text sequence segmentation method and device, and storage medium thereof
US11157686B2 (en) 2019-11-11 2021-10-26 Beijing Xiaomi Intelligent Technology Co., Ltd. Text sequence segmentation method, apparatus and device, and storage medium thereof
CN110795938A (zh) * 2019-11-11 2020-02-14 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN110795938B (zh) * 2019-11-11 2023-11-10 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN110991182A (zh) * 2019-12-03 2020-04-10 东软集团股份有限公司 用于专业领域的分词方法、装置、存储介质及电子设备
CN110991182B (zh) * 2019-12-03 2024-01-19 东软集团股份有限公司 用于专业领域的分词方法、装置、存储介质及电子设备
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
CN112101021A (zh) * 2020-09-03 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种实现标准词映射的方法、装置及设备
WO2022061877A1 (zh) * 2020-09-28 2022-03-31 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN112307167A (zh) * 2020-10-30 2021-02-02 广州华多网络科技有限公司 文本切句方法、装置、计算机设备和存储介质
CN113609850A (zh) * 2021-07-02 2021-11-05 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质
CN113609850B (zh) * 2021-07-02 2024-05-17 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108334492B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN108334492A (zh) 文本分词、即时消息处理方法和装置
US11636341B2 (en) Processing sequential interaction data
US20170052946A1 (en) Semantic understanding based emoji input method and device
KR101708508B1 (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
JP6033326B2 (ja) コンテンツベースの自動的な入力プロトコルの選択
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN110717325A (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN108597517B (zh) 标点符号添加方法、装置、计算机设备和存储介质
KR20110115543A (ko) 개체의 유사성을 계산하는 방법
CN105138586A (zh) 一种文件查找方法及装置
CN111666766B (zh) 数据处理方法、装置和设备
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN112116008A (zh) 基于智能决策的目标检测模型的处理方法、及其相关设备
JP2023017910A (ja) セマンティック表現モデルの事前トレーニング方法、装置及び電子機器
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN111767694B (zh) 文本生成方法、装置和计算机可读存储介质
CN110110092A (zh) 一种知识图谱构建方法及相关设备
WO2017036341A1 (en) Random index pattern matching based email relations finder system
JPWO2019225154A1 (ja) 作成文章評価装置
CN106411683A (zh) 一种关键社交信息的确定方法及装置
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN108763574A (zh) 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合
CN108959262A (zh) 一种命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant