CN109858011B - 标准词库分词方法、装置、设备及计算机可读存储介质 - Google Patents

标准词库分词方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109858011B
CN109858011B CN201811452898.0A CN201811452898A CN109858011B CN 109858011 B CN109858011 B CN 109858011B CN 201811452898 A CN201811452898 A CN 201811452898A CN 109858011 B CN109858011 B CN 109858011B
Authority
CN
China
Prior art keywords
chinese character
probability
chinese
standard
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811452898.0A
Other languages
English (en)
Other versions
CN109858011A (zh
Inventor
黄越
陈明东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811452898.0A priority Critical patent/CN109858011B/zh
Publication of CN109858011A publication Critical patent/CN109858011A/zh
Application granted granted Critical
Publication of CN109858011B publication Critical patent/CN109858011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种标准词库分词方法、装置、设备及计算机可读存储介质,将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;依据第一相邻概率和第一贝叶斯概率,对原始汉字库执行汉字合并操作,得到待调整汉字库;判断待调整汉字库中每两个汉字之间的第二相邻概率内的最小相邻概率是否大于预设阈值;若是,则依据第二相邻概率和所述第二贝叶斯概率,对待调整汉字库执行汉字合并操作,直至得到的目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;否则将合并汉字组作为标准词输出。本发明提高标准词库的分词准确率和标准词库的通用性。

Description

标准词库分词方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及自然语言处理的技术领域,尤其涉及一种标准词库分词方法、装置、设备及计算机可读存储介质。
背景技术
NLP(Natural Language Processing,自然语言处理)是人工智能的一个子领域,目前NLP主要通过已有的分词库进行计算,分词库可以通过字典或人工辅助标注方式进行。
通过字典或人工辅助标注方式对标准词库进行分词时,由于字典或人工辅助标注有限,无法准确的对标准词库进行分词,使得标准词库不满足NLP在特定领域,如医学领域中的应用,需要对已有的标准词库进行重新分词。
因此,如何提高标准词库的分词准确率和标准词库的通用性是目前亟待解决的问题。
发明内容
本发明的主要目的在于提供一种标准词库分词方法、装置、设备及计算机可读存储介质,旨在提高标准词库的分词准确率和标准词库的通用性。
为实现上述目的,本发明提供一种标准词库分词方法,所述标准词库分词方法包括以下步骤:
将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算所述原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
计算所述待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断所述第二相邻概率内的最小相邻概率是否大于预设阈值;
若所述最小相邻概率大于预设阈值,则依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
若所述最小相邻概率小于或等于预设阈值,则将所述第一合并汉字组作为标准词输出至预设存储区域。
可选地,依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作的步骤包括:
从所述原始汉字库中查找所述第一相邻概率最大的两个汉字作为两个待合并汉字,并合并所述两个待合并汉字,得到合并汉字组;
依据所述两个待合并汉字的第一贝叶斯概率,调整所述合并汉字组中的两待合并汉字的位置关系。
可选地,依据所述两个待合并汉字的第一贝叶斯概率,调整所述合并汉字组中的两待合并汉字的位置关系的步骤包括:
获取所述两个待合并汉字中的第一待合并汉字位于第二待合并汉字之前的第一贝叶斯概率,并判断所述第一贝叶斯概率是否大于预设贝叶斯概率;
若所述第一贝叶斯概率大于或等于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之前;
若所述第一贝叶斯概率小于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之后。
可选地,所述合并汉字组作为单个汉字参与相邻概率和贝叶斯概率的计算。
可选地,判断所述第二相邻概率内的最小相邻概率是否大于预设阈值的步骤之后,还包括:
若所述最小相邻概率大于预设阈值,则判断所述第二相邻概率最大的两个汉字中是否存在至少一汉字为合并汉字组;
若所述第二相邻概率最大的两个汉字中存在至少一汉字为合并汉字组,则判断所述合并汉字组包含的汉字个数是否达到预设汉字个数;
若所述合并汉字组包含的汉字个数达到预设汉字个数,则将所述合并汉字组作为标准词输出至预设存储区域;
若所述合并汉字组包含的汉字个数未达到预设汉字个数,则执行步骤:依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,直至得到的待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值。
可选地,所述将待分词标准词库中的标准词打散为单个汉字,形成汉字库的步骤之前,还包括:
当监测到触发的标准词库分词指令时,依据所述标准词库分词指令确定待分词标准词库。
可选地,依据所述标准词库分词指令确定待分词标准词库的步骤包括:
从所述标准词库分词指令中读取标准词库识别码,并将数据库中与所述标准词库识别码对应的标准词库确定为待分词标准词库。
此外,为实现上述目的,本发明还提供一种标准词库分词装置,所述标准词库分词装置包括:
概率计算模块,用于将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算所述原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
汉字合并模块,用于依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
判断模块,用于计算所述待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断所述第二相邻概率内的最小相邻概率是否大于预设阈值;
所述汉字合并模块,用于若所述最小相邻概率大于预设阈值,则依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
输出模块,用于所述最小相邻概率小于或等于预设阈值,则将所述第一合并汉字组作为标准词输出至预设存储区域。
此外,为实现上述目的,本发明还提供一种标准词库分词设备,所述标准词库分词设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的标准词库分词程序,其中所述标准词库分词程序被所述处理器执行时,实现如上述的标准词库分词方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有标准词库分词程序,其中所述标准词库分词程序被处理器执行时,实现如上述的标准词库分词方法的步骤。
本发明提供一种标准词库分词方法、装置、设备及计算机可读存储介质,本发明通过将待分词标准词库打散为单个汉字,形成原始汉字库之后,计算原始汉字库中每两个汉字之间的相邻概率和贝叶斯概率,并依据相邻概率和贝叶斯概率,对原始汉字库执行汉字合并操作,得到包含合并汉字组的待调整汉字库,然后计算待调整汉字库中每两个汉字之间的相邻概率和贝叶斯概率,并依据重新计算得到的相邻概率和贝叶斯概率,对待调整汉字库执行汉字合并操作,直至得到的待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值时,将合并汉字组作为标准词输出至预设存储区域,实现标准词库分词,结合相邻概率和贝叶斯概率对标准词库进行分词,有效的提高标准词库的分词准确率和标准词库的通用性。
附图说明
图1为本发明各实施例涉及的标准词库分词设备的硬件结构示意图;
图2为本发明标准词库分词方法第一实施例的流程示意图;
图3为本发明标准词库分词装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的标准词库分词方法主要应用于标准词库分词设备,该标准词库分词设备可以是PC(个人计算机personal computer)、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的标准词库分词设备的硬件结构示意图。本发明实施例中,标准词库分词设备可以包括处理器1001(例如中央处理器CentralProcessing Unit、CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及标准词库分词程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的标准词库分词程序,并执行本发明实施例提供的标准词库分词方法的步骤。
本发明实施例提供了一种标准词库分词方法。
参照图2,图2为本发明标准词库分词方法第一实施例的流程示意图。
本实施例中,该标准词库分词方法由标准词库分词设备实现,该标准词库分词设备可以是PC、掌上电脑和平板电脑等终端设备,可选为图1所示的设备,所述标准词库分词方法包括以下步骤:
步骤S101,将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
步骤S102,依据第一相邻概率和所述第一贝叶斯概率,对原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
步骤S103,计算待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断第二相邻概率内的最小相邻概率是否大于预设阈值;
步骤S104,若最小相邻概率大于预设阈值,则依据第二相邻概率和所述第二贝叶斯概率,对待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将第二合并汉字组作为标准词输出至预设存储区域,其中,目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
步骤S105,若最小相邻概率小于或等于预设阈值,则将第一合并汉字组作为标准词输出至预设存储区域。
通过字典或人工辅助标注方式对标准词库进行分词时,由于字典或人工辅助标注有限,无法准确的对标准词库进行分词,使得标准词库不满足NLP在特定领域,如医学领域中的应用,需要对已有的标准词库进行重新分词。考虑到上述问题,本实施例中提出一种标准词库分词方法,以下详细介绍标准词库分词方法的具体步骤:
步骤S101,将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
本实施例中,设备确定待分词标准词库,并将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算原始汉字库中每两个汉字之间的相邻概率和贝叶斯概率。其中,该标准词库包括但不限于ICD10诊断编码库、ICD9-CM手术操作编码库和药品ATC编码库,该标准词库中的标准词的打散方式包括但不限于顺序打散、倒序打散和随机打散,顺序打散为将标准词中的各个汉字,按照当前的排列顺序将标准词打散为单个汉字,并将打散的汉字随机的存储到预设空白数据库中;倒序打散为将标准词中的各个汉字,按照当前的排列顺序的倒序将标准词打散为单个汉字,并将打散的汉字随机的存储到预设空白数据库中;随机打散为将标准词库中的标准词随机拆分为单个汉字,并随机的将拆分后的单个汉字存储到预设空白数据库中。
其中,相邻概率和贝叶斯概率的计算方式具体为统计汉字库包含的汉字条目总数,并统计两个汉字的相邻条目数(如汉字A和汉字B相邻出现的条目数),还统计相邻两个汉字中,一个汉字出现在另一汉字之前的前验条目数(如汉字A和汉字B相邻,且汉字A出现在汉字B之前的条目数),然后用该相邻条目数除以该汉字条目总数,得到两个汉字之间的相邻概率,用该前验条目数除以该相邻条目数,得到两个汉字的贝叶斯概率。例如汉字条目总数为1000,汉字A和汉字B相邻出现的条目数为600,且汉字A出现在汉字B之前的条目数为300,则汉字A和汉字B之间的相邻概率为600/1000=60%,汉字A和汉字B之间的贝叶斯概率为300/600=50%。
进一步地,本实施例中,步骤S101之前,还包括:
步骤a,当监测到触发的标准词库分词指令时,依据标准词库分词指令确定待分词标准词库。
本实施例中,当监测到触发的标准词库分词指令时,依据该标准词库分词指令确定待分词标准词库,即从该标准词库分词指令中读取标准词库识别码,并将数据库中与该标准词库识别码对应的标准词库确定为待分词标准词库。其中,数据库中存储有标准词库,且每个标准词库用唯一的标准词库识别码表示。
步骤S102,依据第一相邻概率和所述第一贝叶斯概率,对原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
本实施例中,在计算得到原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率之后,依据原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率,对原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库,即将原始汉字库中第一相邻概率最大的两个汉字确定为两个待合并汉字,并按照两个待合并汉字的第一贝叶斯概率,对两个待合并汉字执行汉字合并操作,得到合并汉字组,例如,待合并汉字为汉字A和汉字B,且汉字A位于汉字B之前的贝叶斯概率大于或等于50%,则对汉字A和汉字B执行汉字合并操作,得到的合并汉字组为AB;又例如,待合并汉字为汉字A和汉字B,且汉字A位于汉字B之前的贝叶斯概率小于50%,则对汉字A和汉字B执行汉字合并操作,得到的合并汉字组为BA。
具体地,从原始汉字库中查找第一相邻概率最大的两个汉字作为两个待合并汉字,并合并所述两个待合并汉字,得到合并汉字组,然后依据两个待合并汉字的第一贝叶斯概率,调整合并汉字组中的两待合并汉字的位置关系,即获取两个待合并汉字中的第一待合并汉字位于第二待合并汉字之前的第一贝叶斯概率,并判断第一贝叶斯概率是否大于预设贝叶斯概率,如果第一贝叶斯概率大于或等于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之前,如果第一叶斯概率小于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之后。需要说明的是,上述预设贝叶斯概率可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。
例如,待合并汉字为汉字A和汉字B,且汉字A和汉字B之间的贝叶斯概率为90%,对汉字A和汉字B执行汉字合并操作,得到的合并汉字组为AB;又例如,待合并汉字为汉字A和汉字B,且汉字A和汉字B之间的贝叶斯概率为20%,对汉字A和汉字B执行汉字合并操作,得到的合并汉字组为BA。
步骤S103,计算待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断第二相邻概率内的最小相邻概率是否大于预设阈值;
本实施例中,设备在得到待调整汉字库之后,计算待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断第二相邻概率内的最小相邻概率是否大于预设阈值,如果待调整汉字库中每两个汉字之间的第二相邻概率内的最小相邻概率大于预设阈值,则需要对待调整汉字库执行汉字合并操作,而如果待调整汉字库中每两个汉字之间的第二相邻概率内的最小相邻概率小于或等于预设阈值,则不需要对待调整汉字库执行汉字合并操作。其中,该合并汉字组作为单个汉字参与相邻概率和贝叶斯概率的计算,上述预设阈值可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。
步骤S104,若最小相邻概率大于预设阈值,则依据第二相邻概率和第二贝叶斯概率,对待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将第二合并汉字组作为标准词输出至预设存储区域,其中,目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
本实施例中,如果待调整汉字库中每两个汉字之间的第二相邻概率内的最小相邻概率大于预设阈值,则依据第二相邻概率和第二贝叶斯概率,对待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将第二合并汉字组作为标准词输出至预设存储区域,即依据第二相邻概率和第二贝叶斯概率,对待调整汉字库执行多次汉字合并操作,直至得到目标汉字库,且该目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值,具体为从待调整汉字库中查询第二相邻概率最大的两个汉字作为待合并汉字,并合并第二相邻概率最大的两个汉字,得到合并汉字组,然后依据合并汉字组中的两个汉字的第二贝叶斯概率,调整该合并汉字组中两个汉字的位置关系,直至得到目标汉字库。
其中,选择的两个汉字可以为未合并的初始单个汉字,也可以为已合并的作为一个汉字的合并汉字组,如果选择的两个汉字均为未合并的初始单个汉字,即汉字C和汉字D,则合并得到的合并汉字组为CD或DC,且假设合并得到的合并汉字组为DC,且汉字C和汉字D之间的贝叶斯概率为80%,则最后得到的合并汉字组为DC,而汉字C和汉字D之间的贝叶斯概率为10%,则将合并汉字组CD中的汉字C和汉字D顺序颠倒,得到最后的合并汉字组为CD;如果选择的两个汉字中一个为未合并的初始单个汉字,即字E,一个为已合并的作为一个汉字的合并汉字组,即合并汉字组AB,则合并得到的合并汉字组为ABE或EAB,假设合并得到的合并汉字组为ABE,且合并汉字组AB和字E之间的贝叶斯概率为90%,则最后得到的合并汉字组为ABE,而如果合并汉字组AB和字E之间的贝叶斯概率为20%,则最后得到的合并汉字组为EAB;如果选择的的两个汉字均为已合并的作为一个汉字的合并汉字组,即合并汉字组AB和合并汉字组CD,则合并得到的合并汉字组为ABCD或CDAB,假设合并汉字组AB和合并汉字组CD之间的的贝叶斯概率为10%,则最后得到的合并汉字组为CDAB,而假设合并汉字组AB和合并汉字组CD之间的的贝叶斯概率为80%,则最后得到的合并汉字组为ABCD。
步骤S105,若最小相邻概率小于或等于预设阈值,则将第一合并汉字组作为标准词输出至预设存储区域。
本实施例中,如果待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值,则将第一合并汉字组作为标准词输出至预设存储区域,以实现标准词库的分词。
本实施例中,本发明通过将待分词标准词库打散为单个汉字,形成原始汉字库之后,计算原始汉字库中每两个汉字之间的相邻概率和贝叶斯概率,并依据相邻概率和贝叶斯概率,对原始汉字库执行汉字合并操作,得到包含合并汉字组的待调整汉字库,然后计算待调整汉字库中每两个汉字之间的相邻概率和贝叶斯概率,并依据重新计算得到的相邻概率和贝叶斯概率,对待调整汉字库执行汉字合并操作,直至得到的待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值时,将合并汉字组作为标准词输出至预设存储区域,实现标准词库分词,结合相邻概率和贝叶斯概率对标准词库进行分词,有效的提高标准词库的分词准确率和标准词库的通用性。
进一步地,基于上述第一实施例,提出了本发明标准词库分词方法的第二实施例,与前述实施例的区别在于,步骤S103之后,该标准词库分词方法还包括:
步骤a,若最小相邻概率大于预设阈值,则判断第二相邻概率最大的两个汉字中是否存在至少一汉字为合并汉字组;
本实施例中,如果待调整汉字库中每两个汉字之间的第二相邻概率内的最小相邻概率大于预设阈值,判断第二相邻概率最大的两个汉字中是否存在至少一汉字为合并汉字组,即从待调整汉字库中查询第二相邻概率最大两个汉字,并判断查询到的第二相邻概率最大两个汉字中是否有一个汉字为合并汉字组,如果第二相邻概率最大的两个汉字不为合并汉字组,则依据第二相邻概率和第二贝叶斯概率,对待调整汉字库执行汉字合并操作,直至得到的待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值。
步骤b,若第二相邻概率最大的两个汉字中存在至少一汉字为合并汉字组,则判断合并汉字组包含的汉字个数是否达到预设汉字个数;
本实施例中,如果第二相邻概率最大的两个汉字中存在至少一汉字为合并汉字组,则判断合并汉字组包含的汉字个数是否达到预设汉字个数,例如,选择的两个汉字为汉字合并组ABCDEF和汉字G,则判断汉字合并组ABCDEF包含的汉字个数是否达到预设汉字个数。需要说明的是,上述预设汉字个数可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。
如果合并汉字组包含的汉字个数达到预设汉字个数,则将合并汉字组作为标准词输出至预设存储区域,如果合并汉字组包含的汉字个数未达到预设汉字个数,则依据第二相邻概率和第二贝叶斯概率,对待调整汉字库执行汉字合并操作,直至得到的待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值。
本实施例中,通过限定合并汉字组包含的汉字个数,能够在合并汉字组包含的汉字个数达到限定值时,停止对汉字库执行汉字合并操作,能够防止合并得到的分词较长,进一步地提高标准词库的分词准确率。
此外,本发明实施例还提供一种标准词库分词装置。
参照图3,图3为本发明标准词库分词装置第一实施例的功能模块示意图。
本发明标准词库分词装置为虚拟装置,存储于图1所示标准词库分词设备的存储器1005中,用于实现标准词库分词程序的所有功能;将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算所述原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;计算所述待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断所述第二相邻概率内的最小相邻概率是否大于预设阈值;若所述最小相邻概率大于预设阈值,则依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;若所述最小相邻概率小于或等于预设阈值,则将所述第一合并汉字组作为标准词输出至预设存储区域。
具体的,本实施例中,所述标准词库分词装置包括:
概率计算模块101,用于将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算所述原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
汉字合并模块102,用于依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
判断模块103,用于计算所述待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断所述第二相邻概率内的最小相邻概率是否大于预设阈值;
所述汉字合并模块102,用于若所述最小相邻概率大于预设阈值,则依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
输出模块104,用于所述最小相邻概率小于或等于预设阈值,则将所述第一合并汉字组作为标准词输出至预设存储区域。
进一步地,所述汉字合并模块102还用于:
从所述原始汉字库中查找所述第一相邻概率最大的两个汉字作为两个待合并汉字,并合并所述两个待合并汉字,得到合并汉字组;
依据所述两个待合并汉字的第一贝叶斯概率,调整所述合并汉字组中的两待合并汉字的位置关系。
进一步地,所述汉字合并模块102还用于:
获取所述两个待合并汉字中的第一待合并汉字位于第二待合并汉字之前的第一贝叶斯概率,并判断所述第一贝叶斯概率是否大于预设贝叶斯概率;
若所述第一贝叶斯概率大于或等于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之前;
若所述第一贝叶斯概率小于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之后。
进一步地,所述合并汉字组作为单个汉字参与相邻概率和贝叶斯概率的计算。
进一步地,若所述最小相邻概率大于预设阈值,则判断所述第二相邻概率最大的两个汉字中是否存在至少一汉字为合并汉字组;
若所述第二相邻概率最大的两个汉字中存在至少一汉字为合并汉字组,则判断所述合并汉字组包含的汉字个数是否达到预设汉字个数;
若所述合并汉字组包含的汉字个数达到预设汉字个数,则将所述合并汉字组作为标准词输出至预设存储区域;
若所述合并汉字组包含的汉字个数未达到预设汉字个数,则执行步骤:依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,直至得到的待调整汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值。
进一步地,所述标准词库分词装置还包括:
确定模块,用于当监测到触发的标准词库分词指令时,依据所述标准词库分词指令确定待分词标准词库。
进一步地,所述确定模块还用于:
从所述标准词库分词指令中读取标准词库识别码,并将数据库中与所述标准词库识别码对应的标准词库确定为待分词标准词库。
其中,上述标准词库分词装置中各个模块的功能实现与上述标准词库分词方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有标准词库分词程序,其中所述标准词库分词程序被处理器执行时,实现如上述的标准词库分词方法的步骤。
其中,标准词库分词程序被执行时所实现的方法可参照本发明标准词库分词方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种标准词库分词方法,其特征在于,所述标准词库分词方法包括以下步骤:
将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算所述原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
计算所述待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断所述第二相邻概率内的最小相邻概率是否大于预设阈值;
若所述最小相邻概率大于预设阈值,则依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
若所述最小相邻概率小于或等于预设阈值,则将所述第一合并汉字组作为标准词输出至预设存储区域;
所述将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库的步骤包括:
将待分词标准词库中的标准词打散为单个汉字,并将打散的汉字随机的存储到预设空白数据库中,以形成原始汉字库;
所述依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作的步骤包括:
从所述原始汉字库中查找所述第一相邻概率最大的两个汉字作为两个待合并汉字,并合并所述两个待合并汉字,得到合并汉字组;
依据所述两个待合并汉字的第一贝叶斯概率,调整所述合并汉字组中的两待合并汉字的位置关系;
所述依据所述两个待合并汉字的第一贝叶斯概率,调整所述合并汉字组中的两待合并汉字的位置关系的步骤包括:
获取所述两个待合并汉字中的第一待合并汉字位于第二待合并汉字之前的第一贝叶斯概率,并判断所述第一贝叶斯概率是否大于预设贝叶斯概率;
若所述第一贝叶斯概率大于或等于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之前;
若所述第一贝叶斯概率小于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之后。
2.如权利要求1所述的标准词库分词方法,其特征在于,所述合并汉字组作为单个汉字参与相邻概率和贝叶斯概率的计算。
3.如权利要求2所述的标准词库分词方法,其特征在于,判断所述第二相邻概率内的最小相邻概率是否大于预设阈值的步骤之后,还包括:
若所述最小相邻概率大于预设阈值,则判断所述第二相邻概率最大的两个汉字中是否存在至少一汉字为合并汉字组;
若所述第二相邻概率最大的两个汉字中存在至少一汉字为合并汉字组,则判断所述合并汉字组包含的汉字个数是否达到预设汉字个数;
若所述合并汉字组包含的汉字个数达到预设汉字个数,则将所述合并汉字组作为标准词输出至预设存储区域;
若所述合并汉字组包含的汉字个数未达到预设汉字个数,则执行步骤:依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值。
4.如权利要求1-3中任一项所述的标准词库分词方法,其特征在于,所述将待分词标准词库中的标准词打散为单个汉字,形成汉字库的步骤之前,还包括:
当监测到触发的标准词库分词指令时,依据所述标准词库分词指令确定待分词标准词库。
5.如权利要求4所述的标准词库分词方法,其特征在于,依据所述标准词库分词指令确定待分词标准词库的步骤包括:
从所述标准词库分词指令中读取标准词库识别码,并将数据库中与所述标准词库识别码对应的标准词库确定为待分词标准词库。
6.一种标准词库分词装置,其特征在于,所述标准词库分词装置包括:
概率计算模块,用于将待分词标准词库中的标准词打散为单个汉字,形成原始汉字库,并计算所述原始汉字库中每两个汉字之间的第一相邻概率和第一贝叶斯概率;
汉字合并模块,用于依据所述第一相邻概率和所述第一贝叶斯概率,对所述原始汉字库执行汉字合并操作,得到包含第一合并汉字组的待调整汉字库;
判断模块,用于计算所述待调整汉字库中每两个汉字之间的第二相邻概率和第二贝叶斯概率,并判断所述第二相邻概率内的最小相邻概率是否大于预设阈值;
所述汉字合并模块,用于若所述最小相邻概率大于预设阈值,则依据所述第二相邻概率和所述第二贝叶斯概率,对所述待调整汉字库执行汉字合并操作,得到包含第二合并汉字组的目标汉字库,并将所述第二合并汉字组作为标准词输出至预设存储区域,其中,所述目标汉字库中每两个汉字之间的相邻概率内的最小相邻概率小于或等于预设阈值;
输出模块,用于若所述最小相邻概率小于或等于预设阈值,则将所述第一合并汉字组作为标准词输出至预设存储区域;
所述概率计算模块,还用于将待分词标准词库中的标准词打散为单个汉字,并将打散的汉字随机的存储到预设空白数据库中,以形成原始汉字库;
所述汉字合并模块,还用于从所述原始汉字库中查找所述第一相邻概率最大的两个汉字作为两个待合并汉字,并合并所述两个待合并汉字,得到合并汉字组;依据所述两个待合并汉字的第一贝叶斯概率,调整所述合并汉字组中的两待合并汉字的位置关系;
所述汉字合并模块,还用于获取所述两个待合并汉字中的第一待合并汉字位于第二待合并汉字之前的第一贝叶斯概率,并判断所述第一贝叶斯概率是否大于预设贝叶斯概率;若所述第一贝叶斯概率大于或等于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之前;若所述第一贝叶斯概率小于预设贝叶斯概率,则将第一待合并汉字与第二待合并汉字的位置关系调整为第一待合并汉字位于第二待合并汉字之后。
7.一种标准词库分词设备,其特征在于,所述标准词库分词设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的标准词库分词程序,其中所述标准词库分词程序被所述处理器执行时,实现如权利要求1至5中任一项所述的标准词库分词方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有标准词库分词程序,其中所述标准词库分词程序被处理器执行时,实现如权利要求1至5中任一项所述的标准词库分词方法的步骤。
CN201811452898.0A 2018-11-30 2018-11-30 标准词库分词方法、装置、设备及计算机可读存储介质 Active CN109858011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811452898.0A CN109858011B (zh) 2018-11-30 2018-11-30 标准词库分词方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811452898.0A CN109858011B (zh) 2018-11-30 2018-11-30 标准词库分词方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109858011A CN109858011A (zh) 2019-06-07
CN109858011B true CN109858011B (zh) 2022-08-19

Family

ID=66890556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811452898.0A Active CN109858011B (zh) 2018-11-30 2018-11-30 标准词库分词方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109858011B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779990B (zh) * 2021-09-10 2023-10-31 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369877A (zh) * 2000-10-04 2002-09-18 微软公司 用于在不切分的文本中识别新词的属性的方法和系统
CN104462105A (zh) * 2013-09-16 2015-03-25 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法
CN106649308A (zh) * 2015-10-28 2017-05-10 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174195A (ja) * 1991-01-25 1993-07-13 Matsushita Electric Ind Co Ltd 英文字認識装置
US6640006B2 (en) * 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
CN1256688C (zh) * 2002-07-25 2006-05-17 摩托罗拉公司 用于中文文本处理系统的中文分词方法
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
CN106445906A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 领域词典中中长词词组的生成方法及装置
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
CN107357780B (zh) * 2017-06-28 2019-12-10 浙江大学 一种针对中医药症状句子的中文分词方法
CN108845982B (zh) * 2017-12-08 2021-08-20 昆明理工大学 一种基于词的关联特征的中文分词方法
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369877A (zh) * 2000-10-04 2002-09-18 微软公司 用于在不切分的文本中识别新词的属性的方法和系统
CN104462105A (zh) * 2013-09-16 2015-03-25 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器
CN106649308A (zh) * 2015-10-28 2017-05-10 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN106610937A (zh) * 2016-09-19 2017-05-03 四川用联信息技术有限公司 一种基于信息论的中文自动分词算法

Also Published As

Publication number Publication date
CN109858011A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN112749344B (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
EP3819785A1 (en) Feature word determining method, apparatus, and server
EP3905126A2 (en) Image clustering method and apparatus
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN113222942A (zh) 多标签分类模型的训练方法和预测标签的方法
CN108170806B (zh) 敏感词检测过滤方法、装置和计算机设备
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN113128209B (zh) 用于生成词库的方法及装置
CN112070506A (zh) 风险用户识别方法、装置、服务器及存储介质
US20230096921A1 (en) Image recognition method and apparatus, electronic device and readable storage medium
CN109858011B (zh) 标准词库分词方法、装置、设备及计算机可读存储介质
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN110618797B (zh) 生成文字走马灯的方法、装置及终端设备
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN115344315A (zh) 小程序页面的皮肤切换方法、装置和电子设备
CN115374793B (zh) 基于服务场景识别的语音数据处理方法及相关装置
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN113343699B (zh) 日志安全风险的监测方法、装置、电子设备及介质
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
CN114254650A (zh) 一种信息处理方法、装置、设备及介质
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN108182202B (zh) 内容更新通知方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant