CN105975454A - 一种网页文本的中文分词方法和装置 - Google Patents

一种网页文本的中文分词方法和装置 Download PDF

Info

Publication number
CN105975454A
CN105975454A CN201610257885.2A CN201610257885A CN105975454A CN 105975454 A CN105975454 A CN 105975454A CN 201610257885 A CN201610257885 A CN 201610257885A CN 105975454 A CN105975454 A CN 105975454A
Authority
CN
China
Prior art keywords
word
web page
text
str
page text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610257885.2A
Other languages
English (en)
Inventor
简宋全
邹立斌
李青海
侯大勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Original Assignee
Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jing Dian Computing Machine Science And Technology Ltd filed Critical Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority to CN201610257885.2A priority Critical patent/CN105975454A/zh
Publication of CN105975454A publication Critical patent/CN105975454A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种网页文本的中文分词装置及方法。该装置包括:前期处理模块、最大匹配模块、神经网络消歧模块和文本输出模块。与现有技术比较本发明的有益效果在于:本申请提供的一种网页文本的中文分词装置及方法,通过根据正、反向最大匹配得到一部分的分词结果,一部分带有歧义的语句,然后运用神经网络的自学习、并行处理等优点处理歧义语句,结合双向最大匹配和神经网络的优点,互相补充,能高效快速地处理网页文本分词。

Description

一种网页文本的中文分词方法和装置
技术领域
本发明涉及网页文本分词技术领域,尤其涉及一种网页文本的中文分词方法和装置。
背景技术
随着移动互联网的快速发展,人们的日常生活与互联网紧密相连,互联网信息成为信息获取的主要来源,已经广泛渗透到各个领域。因而运营商积累了越来越多的用户上网行为和相关信息,实时营销的广泛应用,使得对用户需求分析成为及其重要的一部分。为了从大量的资源信息中获取有价值的信息,自然语言处理技术得到了广大互联网公司的重视,中文分词是中文信息处理的前提和基础,是自然语言处理技中至关重要的步骤。中文分词指的是将一个汉字序列切分成一个个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程。对于一段话,人们阅读后很快就可以理解划分词语,对于计算机而言,并不能理解这段话的意思。因此涌现了很多中文分词方法,大致可分为三种:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
由于中文语句的复杂性和多样性,分词技术的难点表现在歧义识别和消歧、未登录词识别。现有的解决交集型歧义识别和消除的文本分词方法处理速度较慢。
鉴于上述缺陷,本发明创作者经过长时间的研究和试验,最终获得了本发明。
发明内容
本发明的目的在于提供一种网页文本的中文分词方法和装置用以克服上述技术缺陷。
为实现上述目的,本发明采用的技术方案在于:
一方面提供了一种网页文本的中文分词方法,该方法包括以下步骤:
步骤S1,提取网页文本并对所述网页文本进行预处理;
步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3;
步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;
步骤S4,对未登录词识别并输出最终的网页文本分词结果。
较佳的,所述步骤S1包括以下步骤:
步骤S11,利用网页爬虫获取网页文本;
步骤S12,将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;
步骤S13,对所述短语句进行词性标注;
步骤S14,对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。
较佳的,所述步骤S2中的正向最大匹配中文分词方法包括以下步骤:
步骤S210,从每一个value的首字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;
步骤S211,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的尾字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的尾字重新赋值给Str;
步骤S212,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为首字对余下网页文本进行分词;
步骤S213,输出正向匹配分词结果。
较佳的,所述步骤S2中的反向最大匹配中文分词方法包括以下步骤:
步骤S220,从每一个value的尾字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;
步骤S221,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的首字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的首字重新赋值给Str;
步骤S222,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为尾字对余下网页文本进行分词。
步骤S223,输出反向匹配分词结果。
又一方面提供了一种网页文本的中文分词装置,该装置包括:
前期处理模块,用于提取网页文本并对所述网页文本进行预处理;
最大匹配模块,用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同;
神经网络消歧模块,用于利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;
文本输出模块,用于对未登录词识别并输出最终的网页文本分词结果。
较佳的,所述前期处理模块包括:
文本提取单元,用于利用网页爬虫获取网页文本;
粗切分单元,用于将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;
词性标记单元,用于对所述短语句进行词性标注;
词性转换单元,用于对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。
较佳的,所述最大匹配模块包括:
正向最大匹配模块,用于运用正向最大匹配中文分词方法对短语句的文本内容进行切分,得到正向匹配分词结果;
反向最大匹配模块,用于运用反向最大匹配中文分词方法对短语句的文本内容进行切分,得到反向匹配分词结果;
比较异同单元,用于判断所述两种分词结果是否相同。
较佳的,所述神经网络消歧模块包括:
语句预处理单元,用于依据Unicode码和自定义不同类型对应词性代码,对包含各类型交集型歧义的语句训练样本进行逐一编码,变成神经网络能够识别、学习和存储的数值向量形式,送至神经网络输入层;
BP神经网络单元,用于根据模型总公式得到网络输出值,通过梯度下降法对误差逆传播进行修正权值;
转码输出分词结果单元,用于将通过BP神经网络单元计算得到的向量型输出,根据一定的数值范围转化成带有“/”分词的语句。
较佳的,所述文本输出模块包括:
未登录词识别单元,用于对未登录词进行识别;
最终分词结果输出单元,用于输出最终的分词结果。
与现有技术比较本发明的有益效果在于:本申请提供的一种网页文本的中文分词装置及方法,通过根据正、反向最大匹配得到一部分的分词结果,一部分带有歧义的语句,然后运用神经网络的自学习、并行处理等优点处理歧义语句,结合双向最大匹配和神经网络的优点,互相补充,能高效快速地处理网页文本分词。
附图说明
图1为本发明提供的一种网页文本的中文分词装置的功能框图;
图2为前期处理模块的功能框图;
图3为最大匹配模块的功能框图;
图4为神经网络消歧模块的功能框图;
图5为文本输出模块的功能框图;
图6为本发明提供的一种网页文本的中文分词方法的流程图;
图7为步骤S1的流程示意图;
图8为步骤S2中正向最大匹配中文分词方法的流程图;
图9为步骤S2中反向最大匹配中文分词方法的流程图。
具体实施方式
为便于进一步理解本发明的技术内容,下面结合附图对本发明作进一步说明。
实施例一
如图1所示,为本发明提供的一种网页文本的中文分词装置的功能框图,该装置包括:前期处理模块1,用于提取网页文本并对所述网页文本进行预处理。最大匹配模块2,用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同。神经网络消歧模块3,用于利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果。文本输出模块4,用于对未登录词识别并输出最终的网页文本分词结果。
如图2所示,为前期处理模块的功能框图。前期处理模块1包括:提取单元11、粗切分单元12、词性标记单元13和转换单元14。其中,文本提取单元11用于利用网页爬虫获取网页文本。粗切分单元12用于将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度。具体分隔方式为:根据数字、英文字符、标点符号和出现频率高而构词能力差的单字词等,将网页文本分割成一段段由“/”或空格隔开的短语句,缩减网页文本字符的长度。词性标记单元13用于对所述短语句进行词性标注。具体的词性标注为:运用隐马尔科夫模型和Viterbi算法,实现对短语句的词性标注。词性转换单元14用于对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。
例如:一个网页文本主题为“移动4G手机”的网页文本,网页文本为“4G最大的数据传输速率超过100Mbit/s,这个速率是移动电话数据传输速率的1万倍,也是3G移动电话速率的50倍。”经过粗切分单元12分割后,成为:“/4G/最大的数据传输速率超过/100Mbit/s/,/这个速率是移动电话数据传输速率的/1/万倍/,/也是/3G/移动电话速率的/50/倍/。/”。对词性标注后短语句“最大的数据传输速率超过”转换为映射值对(index,value)(移动4G手机、2,最大的数据传输速率超过),其中value是短语句文本内容“最大的数据传输速率超过”,是短语句文本内容“最大的数据传输速率超过”在网页文本中的位置“移动4G手机、2”,其中“移动4G手机”指该网页文本主题,“2”指的该短语句位于粗切分后的第二个“/”后。
如图3所示,为最大匹配模块的功能框图。最大匹配模块2包括:正向最大匹配单元21、反向最大匹配单元22和比较异同单元23。正向最大匹配单元21,用于运用正向最大匹配中文分词方法对短语句的文本内容进行切分,得到正向匹配分词结果。反向最大匹配单元21,用于运用反向最大匹配中文分词方法对短语句的文本内容进行切分,得到反向匹配分词结果。比较异同单元23,用于判断所述两种分词结果是否相同。
如图4所示,为神经网络消歧模块的功能框图。神经网络消歧模块3包括:语句预处理单元31、BP神经网络单元32和转码输出分词结果单元33。语句预处理单元31,用于依据Unicode码和自定义不同类型对应词性代码,对包含各类型交集型歧义的语句训练样本进行逐一编码,变成神经网络能够识别、学习和存储的数值向量形式(x1,x2,…,xn),送至神经网络输入层。对期望的分词结果表示为向量形式(y1,y2,…,yp),若第k个字被切分了,则向量第k维为1,否则为0。BP神经网络单元32,用于根据模型总公式得到网络输出值,通过梯度下降法对误差逆传播进行修正权值。主要公式如下:
Y k m = f 2 ( Σ j = 1 T v k j [ f 1 ( Σ i = 1 n w j i x i m + a j ) ] + b k )
E = Σ m = 1 M E m = Σ m = 1 M Σ k = 1 p 1 2 ( Y k m - y k m ) 2
转码输出分词结果单元33,用于将通过BP神经网络单元32计算得到的向量型输出,根据一定的数值范围转化成带有“/”分词的语句。例如第k维值在[0.85,1]内,则对应的第k个字后带有“/”。
如图5所示,为文本输出模块的功能框图。文本输出模块4包括:未登录词识别单元41和最终分词结果输出单元42。未登录词识别单元41用于对未登录词进行识别。最终分词结果输出单元42用于输出最终的分词结果。
实施例二
如图6所示,为本发明提供的一种网页文本的中文分词方法的流程图,该方法包括以下步骤:
步骤S1,提取网页文本并对所述网页文本进行预处理。
如图7所示,步骤S1具体包括以下步骤:
步骤S11,利用网页爬虫获取网页文本。
步骤S12,将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度。
具体的,根据数字、英文字符、标点符号和出现频率高而构词能力差的单字词等,将网页文本分割成一段段由“/”或空格隔开的短语句,缩减网页文本字符的长度。
步骤S13,对所述短语句进行词性标注。
具体的,运用隐马尔科夫模型和Viterbi算法,实现对短语句的词性标注。
步骤S14,对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。
步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3。
如图8所示,正向最大匹配中文分词方法包括以下步骤:
步骤S210,从每一个value的首字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str。
步骤S211,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的尾字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的尾字重新赋值给Str。
步骤S212,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为首字对余下网页文本进行分词。
步骤S213,输出正向匹配分词结果。
如图9所示,反向最大匹配中文分词方法包括以下步骤:
步骤S220,从每一个value的尾字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str。
步骤S221,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的首字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的首字重新赋值给Str。
步骤S222,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为尾字对余下网页文本进行分词。
步骤S223,输出反向匹配分词结果。
步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果。
如图所示,为BP神经网络模型结构图。BP神经网络模型是在模拟人脑结构和行为的基础上,用大量简单的处理单元广泛连接组成的复杂网络,研究成果显示了人工神经网络的主要特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能力。本申请利用神经网络进行分词的目的,是要使网络能够学习到歧义字段中所包含的各种不同的语法规则,当句子中再次出现符合同样语法规则的歧义字段时,网络能够做出正确响应。BP神经网络的语句预处理,是按照一些规定的规则对其进行切分,比如规则:歧义字段首字与前面构成词汇,则首字后切分,否则自己成词。例:“球拍卖完了”和“东西拍卖完了”,其中“拍卖”是歧义字段,按照规则,划分结果是“球拍/卖/完/了”和“东西/拍卖/完/了”。
步骤S4,对未登录词识别并输出最终的网页文本分词结果。
对未登录词识别的步骤包括:设k=1,k为整数。
步骤S41,对分词结果,首先根据构词规则判断一定的词义,例如姓名构词。然后从第k个词语开始,分别将连续的两个、三个和四个相邻的词语合并为候选未登录词w1、w2、w3
步骤S42,将候选未登录词作为关键词输入到网络中进行检索。
步骤S43,判断候选未登录词是否是有效的未登录词,判断是未登录词,则合并相邻词语。
判断依据是:候选未登录词是否会存在相应的百科网络页面。具体来说,在网络页面返回结果的超文本标记语言<title>标签包含候选未登录词。若w3为未登录词,则设置k=k+4,执行步骤S44,否之判断w2是不是未登录词;若w2为未登录词,则设置k=k+3,执行步骤S44,否之判断w1是不是未登录词;对w1做一样的处理,设置k=k+2。
步骤S44,若k小于该分词后语句的词语个数,则返回步骤S41,否则对下一个分词结果判断未登录词,直到所有文本判断完毕。
本申请提供的一种网页文本的中文分词装置及方法,通过根据正、反向最大匹配得到一部分的分词结果,一部分带有歧义的语句,然后运用神经网络的自学习、并行处理等优点处理歧义语句,结合双向最大匹配和神经网络的优点,互相补充,能高效快速地处理网页文本分词。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (9)

1.一种网页文本的中文分词方法,其特征在于,该方法包括以下步骤:
步骤S1,提取网页文本并对所述网页文本进行预处理;
步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3;
步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;
步骤S4,对未登录词识别并输出最终的网页文本分词结果。
2.根据权利要求1所述的一种网页文本的中文分词方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11,利用网页爬虫获取网页文本;
步骤S12,将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;
步骤S13,对所述短语句进行词性标注;
步骤S14,对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。
3.根据权利要求2所述的一种网页文本的中文分词方法,其特征在于,所述步骤S2中的正向最大匹配中文分词方法包括以下步骤:
步骤S210,从每一个value的首字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;
步骤S211,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的尾字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的尾字重新赋值给Str;
步骤S212,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为首字对余下网页文本进行分词;
步骤S213,输出正向匹配分词结果。
4.根据权利要求2所述的一种网页文本的中文分词方法,其特征在于,所述步骤S2中的反向最大匹配中文分词方法包括以下步骤:
步骤S220,从每一个value的尾字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;
步骤S221,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的首字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的首字重新赋值给Str;
步骤S222,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为尾字对余下网页文本进行分词。
步骤S223,输出反向匹配分词结果。
5.一种网页文本的中文分词装置,其特征在于,该装置包括:
前期处理模块,用于提取网页文本并对所述网页文本进行预处理;
最大匹配模块,用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同;
神经网络消歧模块,用于利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;
文本输出模块,用于对未登录词识别并输出最终的网页文本分词结果。
6.根据权利要求5所述的一种网页文本的中文分词装置,其特征在于,所述前期处理模块包括:
文本提取单元,用于利用网页爬虫获取网页文本;
粗切分单元,用于将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;
词性标记单元,用于对所述短语句进行词性标注;
词性转换单元,用于对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。
7.根据权利要求5所述的一种网页文本的中文分词装置,其特征在于,所述最大匹配模块包括:
正向最大匹配模块,用于运用正向最大匹配中文分词方法对短语句的文本内容进行切分,得到正向匹配分词结果;
反向最大匹配模块,用于运用反向最大匹配中文分词方法对短语句的文本内容进行切分,得到反向匹配分词结果;
比较异同单元,用于判断所述两种分词结果是否相同。
8.根据权利要求5所述的一种网页文本的中文分词装置,其特征在于,所述神经网络消歧模块包括:
语句预处理单元,用于依据Unicode码和自定义不同类型对应词性代码,对包含各类型交集型歧义的语句训练样本进行逐一编码,变成神经网络能够识别、学习和存储的数值向量形式,送至神经网络输入层;
BP神经网络单元,用于根据模型总公式得到网络输出值,通过梯度下降法对误差逆传播进行修正权值;
转码输出分词结果单元,用于将通过BP神经网络单元计算得到的向量型输出,根据一定的数值范围转化成带有“/”分词的语句。
9.根据权利要求5所述的一种网页文本的中文分词装置,其特征在于,所述文本输出模块包括:
未登录词识别单元,用于对未登录词进行识别;
最终分词结果输出单元,用于输出最终的分词结果。
CN201610257885.2A 2016-04-21 2016-04-21 一种网页文本的中文分词方法和装置 Pending CN105975454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610257885.2A CN105975454A (zh) 2016-04-21 2016-04-21 一种网页文本的中文分词方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610257885.2A CN105975454A (zh) 2016-04-21 2016-04-21 一种网页文本的中文分词方法和装置

Publications (1)

Publication Number Publication Date
CN105975454A true CN105975454A (zh) 2016-09-28

Family

ID=56993907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610257885.2A Pending CN105975454A (zh) 2016-04-21 2016-04-21 一种网页文本的中文分词方法和装置

Country Status (1)

Country Link
CN (1) CN105975454A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN107301170A (zh) * 2017-06-19 2017-10-27 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108153872A (zh) * 2017-12-25 2018-06-12 佛山市车品匠汽车用品有限公司 一种互联网网页信息过滤的方法和装置
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN108268459A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于朴素贝叶斯的社区言论过滤系统
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN109388803A (zh) * 2018-10-12 2019-02-26 北京搜狐新动力信息技术有限公司 中文分词方法及系统
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
CN110619122A (zh) * 2019-09-19 2019-12-27 中国联合网络通信集团有限公司 分词处理方法、装置、设备及计算机可读存储介质
CN110705289A (zh) * 2019-09-29 2020-01-17 重庆邮电大学 一种基于神经网络和模糊推理的中文分词方法、系统及介质
CN110717317A (zh) * 2019-09-12 2020-01-21 中国科学院自动化研究所 在线人工中文文本标注系统
CN110781682A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110852099A (zh) * 2019-10-25 2020-02-28 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
CN111104801A (zh) * 2019-12-26 2020-05-05 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111160024A (zh) * 2019-12-30 2020-05-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
WO2020232881A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 文本分词方法及装置
CN113111651A (zh) * 2021-04-22 2021-07-13 深圳华南城网科技有限公司 一种中文分词方法、装置以及搜索词库读取方法
CN116522908A (zh) * 2023-07-04 2023-08-01 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及系统
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN105138514A (zh) * 2015-08-24 2015-12-09 昆明理工大学 一种基于词典的正向逐次加一字最大匹配中文分词方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及系统
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN105138514A (zh) * 2015-08-24 2015-12-09 昆明理工大学 一种基于词典的正向逐次加一字最大匹配中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周洪楷: "基于数据库的自然语言智能接口的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张利等: "基于改进BP网络的中文歧义字段分词方法研究", 《大连理工大学学报》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268459A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于朴素贝叶斯的社区言论过滤系统
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN106909611B (zh) * 2017-01-11 2020-04-03 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN107301170A (zh) * 2017-06-19 2017-10-27 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
US10755048B2 (en) 2017-06-19 2020-08-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for segmenting sentence
CN108334492B (zh) * 2017-12-05 2021-11-02 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN108153872A (zh) * 2017-12-25 2018-06-12 佛山市车品匠汽车用品有限公司 一种互联网网页信息过滤的方法和装置
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN109388803A (zh) * 2018-10-12 2019-02-26 北京搜狐新动力信息技术有限公司 中文分词方法及系统
CN109388803B (zh) * 2018-10-12 2023-09-15 北京搜狐新动力信息技术有限公司 中文分词方法及系统
WO2020232881A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 文本分词方法及装置
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
CN110717317A (zh) * 2019-09-12 2020-01-21 中国科学院自动化研究所 在线人工中文文本标注系统
CN110717317B (zh) * 2019-09-12 2021-06-08 中国科学院自动化研究所 在线人工中文文本标注系统
CN110619122A (zh) * 2019-09-19 2019-12-27 中国联合网络通信集团有限公司 分词处理方法、装置、设备及计算机可读存储介质
CN110619122B (zh) * 2019-09-19 2023-08-22 中国联合网络通信集团有限公司 分词处理方法、装置、设备及计算机可读存储介质
CN110705289A (zh) * 2019-09-29 2020-01-17 重庆邮电大学 一种基于神经网络和模糊推理的中文分词方法、系统及介质
CN110781682A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110781682B (zh) * 2019-10-23 2023-04-07 腾讯科技(深圳)有限公司 命名实体识别模型训练方法、识别方法、装置及电子设备
CN110852099A (zh) * 2019-10-25 2020-02-28 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
CN111104801A (zh) * 2019-12-26 2020-05-05 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111104801B (zh) * 2019-12-26 2023-09-26 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111160024B (zh) * 2019-12-30 2023-08-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN111160024A (zh) * 2019-12-30 2020-05-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN113111651A (zh) * 2021-04-22 2021-07-13 深圳华南城网科技有限公司 一种中文分词方法、装置以及搜索词库读取方法
CN116522908A (zh) * 2023-07-04 2023-08-01 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置
CN116522908B (zh) * 2023-07-04 2023-12-05 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置

Similar Documents

Publication Publication Date Title
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110110054A (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN104794169A (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114238571A (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN105095196A (zh) 文本中新词发现的方法和装置
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN112052319A (zh) 一种基于多特征融合的智能客服方法及系统
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN113934814B (zh) 古诗文主观题自动评分方法
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
CN111815426B (zh) 一种涉及金融投研的数据处理方法及终端
CN110929022A (zh) 一种文本摘要生成方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928