CN106708807B - 无监督分词模型训练方法及装置 - Google Patents

无监督分词模型训练方法及装置 Download PDF

Info

Publication number
CN106708807B
CN106708807B CN201710074389.8A CN201710074389A CN106708807B CN 106708807 B CN106708807 B CN 106708807B CN 201710074389 A CN201710074389 A CN 201710074389A CN 106708807 B CN106708807 B CN 106708807B
Authority
CN
China
Prior art keywords
sentence
segment
dictionary
words
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710074389.8A
Other languages
English (en)
Other versions
CN106708807A (zh
Inventor
姚佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Hui He science and Technology Development Co., Ltd.
Original Assignee
Guangdong Hui He Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Hui He Science And Technology Development Co Ltd filed Critical Guangdong Hui He Science And Technology Development Co Ltd
Priority to CN201710074389.8A priority Critical patent/CN106708807B/zh
Publication of CN106708807A publication Critical patent/CN106708807A/zh
Application granted granted Critical
Publication of CN106708807B publication Critical patent/CN106708807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种无监督分词模型训练方法及装置,应用于分词模型,所述分词模型包括一词库,所述方法包括:获取目标训练语句;确定一分词最大字数,将所述分词最大字数作为分词提取字数;从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除;重复对目标语句片段的提取及比对的步骤。如此,高效地实现了在无监督的方式下对分词模型进行训练,并且得到分析模型对歧义语句的辨析能力强。

Description

无监督分词模型训练方法及装置
技术领域
本发明涉及语言分析技术领域,具体而言,涉及一种无监督分词模型训练方法及装置。
背景技术
分词技术是语言处理(例如:机器翻译、自动文摘、自动分类、文献库全文检索、搜索引擎等)中的至关重要的环节,直接影响语言处理的结果。
现有的分词技术,或采用简单的字符串匹,其分词效果不佳,难以解决分词歧义的问题;或采用基于有监督深度学习的分词模型,其需要大量的已标注的训练数据,实施方式复杂,成本高。
发明内容
为了克服现有技术中的上述不足,本发明的目的在于提供一种无监督分词模型训练方法,应用于分词模型,所述分词模型包括一词库,所述词库用于储存语句片段及每个所述语句片段的出现频次;所述方法包括:
获取目标训练语句;
确定一分词最大字数,将所述分词最大字数作为分词提取字数;
从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;
当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句;
当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中;
在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。
进一步地,在上述方法中,所述确定一分词最大字数,将所述分词最大字数作为分词提取字数的步骤,包括:
获取所述目标训练语句的字数,将所述目标训练语句的字数减1后作为分词最大字数,并将所述分词最大字数作为所述分词提取字数。
进一步地,在上述方法中,所述方法还包括:
在所述目标训练语句中,按照从句末至句首递减的顺序确定不同的所述目标语句片段的比对优先级,其中,所述比对优先级较高的目标语句片段较先进行比对。
进一步地,在上述方法中,所述获取目标训练语句的步骤,包括:
获取一特定领域的文本数据,所述文本数据中包括多个训练语句;
依次从所述多个训练语句中选取一个作为所述目标训练语句。
进一步地,在上述方法中,所述方法还包括:
在对所述文本数据中的训练语句进行处理后,将所述词库中所有语句片段的出现频次加1。
进一步地,在上述方法中,所述依次从所述多个训练语句中选取一个作为所述目标训练语句的步骤,包括:
依次从所述多个训练语句中选取一个训练语句,并判断所述训练语句的长度;
当所述训练语句包含的文字个数不小于一预设语句文字个数阈值时,将该训练语句作为目标训练语句;
当该所述训练语句包含的文字个数小于所述预设语句文字个数阈值时,将该训练语句剔除。
进一步地,在上述方法中,所述方法包括:
获取待处理语句;
根据所述词库中已存的语句片段对所述待处理语句采用至少一种拆分方式进行拆分,对应获得至少一个拆分片段集,其中,所述拆分片段集包括多个待处理语句片段;
针对每个所述拆分片段集,根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得所述拆分片段集的拆分有效率;
选取所述拆分有效率最高的拆分片段集作为该待处理语句的最终拆分结果。
进一步地,在上述方法中,所述根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得对应拆分方式的拆分有效率的步骤,包括:
获得所述拆分片段集中每个所述待处理语句片段在所述词库中的出现频次;
针对每个所述待处理语句片段,根据该待处理语句片段的在所述词库中的出现频次及所述词库中所有语句片段的出现频次之和,计算获得该待处理语句片段的出现概率;
计算所述拆分片段集中每个所述待处理语句片段出现概率的乘积,得到该拆分片段集对应拆分方式的拆分有效率。
本发明的另一目的在于提供一种无监督分词模型训练装置,应用于分词模型,所述分词模型包括一词库,所述词库用于储存语句片段及每个所述语句片段的出现频次;所述装置包括:
训练语句获取模块,用于获取目标训练语句;
分词最大字数确定模块,用于确定一分词最大字数,将所述分词最大字数作为分词提取字数;
比对模块,用于从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句;当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中;
循环模块,用于在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。
进一步地,在上述装置中,所述装置还包括:
待处理语句获取模块,用于获取待处理语句;
拆分模块,用于根据所述词库中已存的语句片段对所述待处理语句采用至少一种拆分方式进行拆分,对应获得至少一个拆分片段集,其中,所述拆分片段集包括多个待处理语句片段;
有效率计算模块,用于针对每个所述拆分片段集,根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得所述拆分片段集的拆分有效率;
选取模块,用于选取所述拆分有效率最高的拆分片段集作为该待处理语句的最终拆分结果。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供的一种无监督分词模型训练方法及装置,通过从训练语句提取预设的分词提取字数的目标语句片段,将所述目标语句片段与词库中的语句片段进行比对,并对训练语句及语句片段的出现频次进行更新。如此,高效地实现了在无监督的方式下对分词模型进行训练,并且得到分析模型对歧义语句的辨析能力强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的数据处理终端的示意图;
图2为本发明实施例提供的无监督分词模型训练方法的流程示意图之一;
图3为本发明实施例提供的无监督分词模型训练方法的流程示意图之二;
图4为本发明实施例提供的无监督分词模型训练装置的示意图之一;
图5为本发明实施例提供的无监督分词模型训练装置的示意图之二。
图标:100-数据处理终端;110-无监督分词模型训练装置;111-训练语句获取模块;112-分词最大字数确定模块;113-比对模块;114-循环模块;115-待处理语句获取模块;116-拆分模块;117-有效率计算模块;118-选取模块;120-存储器;130-处理器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,是本发明较佳实施例提供的数据处理终端100,本实施例中,所述数据处理终端100可以是,但不限于,服务器、个人电脑(personal computer,PC)、工控机、工作站等。
所述数据处理终端100包括无监督分词模型训练装置110、存储器120及处理器130。
所述存储器120、处理器130及各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述无监督分词模型训练装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据处理终端100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述无监督分词模型训练装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
请参照图2,图2为本实施例提供的一种无监督分词模型训练方法的流程图,所述方法应用于分词模型,以下将对所述方法包括各个步骤进行详细阐述。
步骤S110,获取目标训练语句。
具体地,经发明人研究发现,由于不同的语言环境中词语结构及语言习惯有所不同,针对不同的语言环境建立不同的分词模型能更准确有效的进行分词工作。故需要设计针对不同的特定领域训练不同的分词模型,在本实施例中,所述数据处理终端100获取一特定领域的文本数据,所述文本数据中包括多个训练语句,并依次从所述多个训练语句中选取一个作为所述目标训练语句。
进一步地,由于过短的训练语句不具有语言代表性,故在本实施例中,在选取所述目标训练语句时对所述目标训练语句的字数进行判断。当所述训练语句包含的文字个数不小于一预设语句文字个数阈值时,将该训练语句作为目标训练语句;当该所述训练语句包含的文字个数小于所述预设语句文字个数阈值时,将该训练语句剔除。在本实施例中,所述预设语句文字个数阈值可以设置为3。
在本实施例中,获取所述特定领域的文本数据的方式可以为,当不仅限于,从该特定领域的文献或教材中获得,通过网络爬虫等方式从该特定领域的网站中爬取,从该特定领域的已有词库中获取。
步骤S120,确定一分词最大字数,将所述分词最大字数作为分词提取字数。
具体地,在本实施例中,根据所述目标训练语句的字数决定所述分词最大字数。所述数据处理终端100获取所述目标训练语句的字数,将所述目标训练语句的字数减1后作为分词最大字数,并将所述分词最大字数作为所述分词提取字数。
例如,当所述目标训练语句为“山和江河湖海”时,所述目标训练语句的字数为6个字,则预设的所述分词最大字数为5个字。
值得说明的是,上述确定所述分词最大字数的方式为本实施例的一种优选实施方式,在本实施例的其他实施方式中,也可以根据所述特定领域的语言习惯预设一个所述分词最大字数,如,在医药化学领域时,其专业词语的长度可能比较长,可以将所述分词最大字数设置为一个较大的预设值;在日常会话用语领域时,其一般用词长度较短,可以将所述分词最大字数设置为一个较小的预设值。
在本实施例中,在步骤S120确定所述分词最大字数之后,确定一分词提取字数,所述分词提取字数从所述分词最大字数递减至1,针对每个不同的分词提取字数,从所述目标训练语句中对应字数的语句片段作为目标训练语句片段,以用于对所述分词模型进行训练。
例如,步骤S120所述情形中,当目标训练语句字数为6时,从所述目标训练语句中依次提取字数为5、4、3、2、1的语句片段作为目标语句片段,详细步骤请参见步骤S130至步骤S160。
步骤S130,从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对。
具体地,以步骤S120所述的情形为例,所述目标训练语句为“山和江河湖海”,若所述提取字数为5时,则提取出的所述目标语句片段包括“山和江河湖”及“和江河湖海”;若所述提取字数为4时,则提取出的所述目标语句片段包括“山和江河”、“和江河湖”、“江河湖海”。获得所述目标语句片段后,将所述目标语句片段与所述词库中的语句片段进行比对。
进一步地,根据语言学中逆向最大匹配原则可以获得较佳的分词效果,在本实施例中设计在所述目标训练语句中,按照从句末至句首递减的顺序确定不同的所述目标语句片段的比对优先级,其中,所述比对优先级较高的目标语句片段较先进行比对。例如,在上述情形中,所述目标语句片段比对的顺序如下“江河湖海”先于“和江河湖”先于“山和江河”。
步骤S140,当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句。
具体地,例如在步骤S130所述的情形中,当目标语句片段为“江河湖海”,所述数据处理终端100在检测到所述词库中存在有语句片段“江河湖海”时,将“江河湖海”的出现频次加1,且将“江河湖海”从所述目标训练语句中剔除,不再对包括有“江河湖海”中任一文字的目标语句片段进行比对(即,新的目标语句片段只包含“山和”,之后只会对“山”、“和”及“山和”进行比对)。
步骤S150,当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中。
所述数据处理终端100在未找到所述词库中有与所述目标语句片段相同的语句片段时,将该目标语句片段作为一个新的语句片段记录至所述词库中。在本实施例中,将新增的语句片段的出现频次记为0。
步骤S160,在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。
具体地,例如在上述情形中,处理完5个字的目标语句片段后,处理4个字的目标语句片段,以此重复,直至处理完字数为1的目标语句片段。
进一步地,在本实施例中,在对所述文本数据中的训练语句进行处理后,将所述词库中所有语句片段的出现频次加1。
具体地,在使用所述分词模型进行分词处理时,需要计算语句片段在所述词库中的出现频率,由于在本实施例中,所述词库中新增的语句片段的出现频次为0,为防止在计算中0%的出现频率对计算结果产生影响,故在本实施例中,采用拉普拉斯平滑处理,在所述词库完成语句片段的收录后,对所述语句片段的出现频次均加1。
请参照图3,在本实施例中,所述方法还包括运用所述分词模型进行分词处理的步骤,以下将各个步骤进行详细阐述。
步骤S210,获取待处理语句。
步骤S220,根据所述词库中已存的语句片段对所述待处理语句采用至少一种拆分方式进行拆分,对应获得至少一个拆分片段集,其中,所述拆分片段集包括多个待处理语句片段。
具体地,例如所述待处理语句为“山和江河湖海”时,根据所述词库中的语句片段对该待处理语句进行拆分得到不同的拆分片段集,如,{山和江河,湖海}、{山,和,江河湖海}、{山,和,江河,湖海}等等。
步骤S230,针对每个所述拆分片段集,根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得所述拆分片段集的拆分有效率。
具体地,在本实施例中,每个所述待处理数据分片在所述词库中有对应的出现频次,所述数据处理终端100获得所述拆分片段集中每个所述待处理语句片段在所述词库中的出现频次。
针对每个所述待处理语句片段,根据该待处理语句片段的在所述词库中的出现频次及所述词库中所有语句片段的出现频次之和,计算获得该待处理语句片段的出现概率。例如,所述待处理数据分片的出现频次为10,所述词库中所有语句片段的出现频次为10000,则该待处理数据分片的出现概率为10/10000=0.1%。
计算所述拆分片段集中每个所述待处理语句片段出现概率的乘积,得到该拆分片段集对应拆分方式的拆分有效率。
具体地,例如一个所述拆分片段集中包括待处理语句片段a、待处理语句片段b及待处理语句片段c,则该拆分片段集的拆分有效率=(待处理语句片段a的出现概率)×(待处理语句片段b的出现概率)×(待处理语句片段c的出现概率)。
步骤S240,选取所述拆分有效率最高的拆分片段集作为该待处理语句的最终拆分结果。
具体地,不同的拆分片段集可能具有不同的有效拆分率,所述数据处理终端100将所述有效拆分率最高的拆分片段集作为该待处理语句的最终拆分结果。在本实施例中,可以通过动态规划算法从多个拆分片段集中找到其中有效拆分率最高的拆分片段集。
请参照图4,本实施例还提供一种无监督分词模型训练装置110,应用于分词模型,所述分词模型包括一词库,所述词库用于储存语句片段及每个所述语句片段的出现频次。所述无监督分词模型训练装置110包括:训练语句获取模块111、分词最大字数确定模块112、比对模块113及循环模块114。
所述训练语句获取模块111,用于获取目标训练语句。
本实施例中,所述训练语句获取模块111可用于执行图2所示的步骤S110,关于所述训练语句获取模块111的具体描述可参对所述步骤S110的描述。
所述分词最大字数确定模块112,用于确定一分词最大字数,将所述分词最大字数作为分词提取字数。
本实施例中,所述分词最大字数确定模块112可用于执行图2所示的步骤S120,关于所述分词最大字数确定模块112的具体描述可参对所述步骤S120的描述。
所述比对模块113,用于从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句;当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中。
本实施例中,所述分词最大字数确定模块112可用于执行图2所示的步骤S130至步骤S150,关于所述分词最大字数确定模块112的具体描述可参对所述步骤S130至步骤S150的描述。
所述循环模块114,用于在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。
本实施例中,所述分词最大字数确定模块112可用于执行图2所示的步骤S160,关于所述分词最大字数确定模块112的具体描述可参对所述步骤S160的描述。
进一步地,请参照图5,在本实施例中,所述无监督分词模型训练装置110还包括:待处理语句获取模块115、拆分模块116、有效率计算模块117及选取模块118。
所述待处理语句获取模块115,用于获取待处理语句。
本实施例中,所述待处理语句获取模块115可用于执行图3所示的步骤S210,关于所述待处理语句获取模块115的具体描述可参对所述步骤S210的描述。
所述拆分模块116,用于根据所述词库中已存的语句片段对所述待处理语句采用至少一种拆分方式进行拆分,对应获得至少一个拆分片段集,其中,所述拆分片段集包括多个待处理语句片段。
本实施例中,所述拆分模块116可用于执行图3所示的步骤S220,关于所述拆分模块116的具体描述可参对所述步骤S220的描述。
所述有效率计算模块117,用于针对每个所述拆分片段集,根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得所述拆分片段集的拆分有效率。
本实施例中,所述有效率计算模块117可用于执行图3所示的步骤S230,关于所述有效率计算模块117的具体描述可参对所述步骤S230的描述。
所述选取模块118,用于选取所述拆分有效率最高的拆分片段集作为该待处理语句的最终拆分结果。
本实施例中,所述选取模块118可用于执行图3所示的步骤S240,关于所述选取模块118的具体描述可参对所述步骤S240的描述。
综上所述,本发明提供的一种无监督分词模型训练方法及装置,通过从训练语句提取预设的分词提取字数的目标语句片段,将所述目标语句片段与词库中的语句片段进行比对,并对训练语句及语句片段的出现频次进行更新。如此,高效地实现了在无监督的方式下对分词模型进行训练,并且得到分析模型对歧义语句的辨析能力强。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种无监督分词模型训练方法,应用于分词模型,其特征在于,所述分词模型包括一词库,所述词库用于储存语句片段及每个所述语句片段的出现频次;所述方法包括:
获取目标训练语句;
获取所述目标训练语句的字数,将所述目标训练语句的字数减1后作为分词最大字数,并将所述分词最大字数作为分词提取字数;
从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;
当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句;
当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中;
在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标训练语句中,按照从句末至句首递减的顺序确定不同的所述目标语句片段的比对优先级,其中,在对所述目标语句片段进行比对的过程中,按照优先级由高到低的顺序依次对多个所述目标语句片段进行比对。
3.根据权利要求1所述的方法,其特征在于,所述获取目标训练语句的步骤,包括:
获取一指定领域的文本数据,所述文本数据中包括多个训练语句;
依次从所述多个训练语句中选取一个作为所述目标训练语句。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在对所述文本数据中的训练语句进行处理后,将所述词库中所有语句片段的出现频次加1。
5.根据权利要求3所述的方法,其特征在于,所述依次从所述多个训练语句中选取一个作为所述目标训练语句的步骤,包括:
依次从所述多个训练语句中选取一个训练语句,并判断所述训练语句的长度;
当所述训练语句包含的文字个数不小于一预设语句文字个数阈值时,将该训练语句作为目标训练语句;
当该所述训练语句包含的文字个数小于所述预设语句文字个数阈值时,将该训练语句剔除。
6.根据权利要求1所述的方法,其特征在于,所述方法包括:
获取待处理语句;
根据所述词库中已存的语句片段对所述待处理语句采用至少一种拆分方式进行拆分,对应获得至少一个拆分片段集,其中,所述拆分片段集包括多个待处理语句片段;
针对每个所述拆分片段集,根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得所述拆分片段集的拆分有效率;
选取所述拆分有效率最高的拆分片段集作为该待处理语句的最终拆分结果。
7.根据权利要求6所述的方法,其特征在于,所述根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得对应拆分方式的拆分有效率的步骤,包括:
获得所述拆分片段集中每个所述待处理语句片段在所述词库中的出现频次;
针对每个所述待处理语句片段,根据该待处理语句片段的在所述词库中的出现频次及所述词库中所有语句片段的出现频次之和,计算获得该待处理语句片段的出现概率;
计算所述拆分片段集中每个所述待处理语句片段出现概率的乘积,得到该拆分片段集对应拆分方式的拆分有效率。
8.一种无监督分词模型训练装置,应用于分词模型,其特征在于,所述分词模型包括一词库,所述词库用于储存语句片段及每个所述语句片段的出现频次;所述装置包括:
训练语句获取模块,用于获取目标训练语句;
分词最大字数确定模块,用于获取所述目标训练语句的字数,将所述目标训练语句的字数减1后作为分词最大字数,并将所述分词最大字数作为分词提取字数;
比对模块,用于从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句;当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中;
循环模块,用于在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
待处理语句获取模块,用于获取待处理语句;
拆分模块,用于根据所述词库中已存的语句片段对所述待处理语句采用至少一种拆分方式进行拆分,对应获得至少一个拆分片段集,其中,所述拆分片段集包括多个待处理语句片段;
有效率计算模块,用于针对每个所述拆分片段集,根据该拆分片段集中待处理语句片段在所述词库中的出现频次,计算获得所述拆分片段集的拆分有效率;
选取模块,用于选取所述拆分有效率最高的拆分片段集作为该待处理语句的最终拆分结果。
CN201710074389.8A 2017-02-10 2017-02-10 无监督分词模型训练方法及装置 Active CN106708807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710074389.8A CN106708807B (zh) 2017-02-10 2017-02-10 无监督分词模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710074389.8A CN106708807B (zh) 2017-02-10 2017-02-10 无监督分词模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN106708807A CN106708807A (zh) 2017-05-24
CN106708807B true CN106708807B (zh) 2019-11-15

Family

ID=58909058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710074389.8A Active CN106708807B (zh) 2017-02-10 2017-02-10 无监督分词模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN106708807B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN110263320B (zh) * 2019-05-05 2020-12-11 清华大学 一种基于专用语料库字向量的无监督中文分词方法
CN113111651A (zh) * 2021-04-22 2021-07-13 深圳华南城网科技有限公司 一种中文分词方法、装置以及搜索词库读取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置
CN105701120A (zh) * 2014-11-28 2016-06-22 华为技术有限公司 确定语义匹配度的方法和装置
CN106055614A (zh) * 2016-05-26 2016-10-26 天津海量信息技术股份有限公司 基于多个语义摘要的内容相似性分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置
CN105701120A (zh) * 2014-11-28 2016-06-22 华为技术有限公司 确定语义匹配度的方法和装置
CN106055614A (zh) * 2016-05-26 2016-10-26 天津海量信息技术股份有限公司 基于多个语义摘要的内容相似性分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"无监督的动态分词方法";高军等;《北京邮电大学学报》;19971215;第20卷(第4期);第66-69页 *

Also Published As

Publication number Publication date
CN106708807A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106708807B (zh) 无监督分词模型训练方法及装置
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN110110330B (zh) 基于文本的关键词提取方法和计算机设备
US10019436B2 (en) Input method and system
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
CN105912629B (zh) 一种智能问答方法及装置
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN105869640A (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
CN104317965A (zh) 基于语料的情感词典构建方法
CN104915420B (zh) 知识库数据处理方法及系统
CN108052500A (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN106372053B (zh) 句法分析的方法和装置
CN108038484A (zh) 空心验证码快速识别方法
CN110362814A (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN106528694A (zh) 基于人工智能的语义判定处理方法和装置
CN109255117A (zh) 中文分词方法及装置
Julca-Aguilar et al. Top-down online handwritten mathematical expression parsing with graph grammar
CN111444324A (zh) 基于断句的多意图识别方法、装置、设备及存储介质
JP2018025956A (ja) モデル作成装置、推定装置、方法、及びプログラム
CN104598441B (zh) 一种计算机拆分汉语句子的方法
CN103116752A (zh) 图片审核方法和系统
CN103744837A (zh) 基于关键词抽取的多文本对照方法
CN112231451A (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN105512109B (zh) 新词汇的发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180503

Address after: 518054 01-02, 14 / F, Yihua financial science and technology building, 2388 Xuefu Road, Nanshan District, Shenzhen, Guangdong.

Applicant after: Guangdong Hui He science and Technology Development Co., Ltd.

Address before: 518000 601 mango net building, Guangdong Hai street, Nanshan District, Shenzhen, Guangdong

Applicant before: Shenzhen city artificial intelligence technology Co., secluded orchid in a deserted Valley

GR01 Patent grant
GR01 Patent grant