CN101256557A - 自定义词管理装置、方法及分词系统 - Google Patents

自定义词管理装置、方法及分词系统 Download PDF

Info

Publication number
CN101256557A
CN101256557A CNA2008100904621A CN200810090462A CN101256557A CN 101256557 A CN101256557 A CN 101256557A CN A2008100904621 A CNA2008100904621 A CN A2008100904621A CN 200810090462 A CN200810090462 A CN 200810090462A CN 101256557 A CN101256557 A CN 101256557A
Authority
CN
China
Prior art keywords
custom
attribute
words
custom words
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100904621A
Other languages
English (en)
Other versions
CN101256557B (zh
Inventor
朱鉴
李珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2008100904621A priority Critical patent/CN101256557B/zh
Publication of CN101256557A publication Critical patent/CN101256557A/zh
Application granted granted Critical
Publication of CN101256557B publication Critical patent/CN101256557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种自定义词管理装置、方法及分词系统。该装置包括:接收模块,用于接收用户输入的自定义词及其属性;词典生成模块,用于根据所述自定义词及其属性,生成自定义词典;词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。应用本发明提供的自定义词典在进行分词时,除了可以提供用户输入的自定义词本身外,还可以提供该自定义词的相关属性。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发明解决了用户利用自定义词进行分词时的准确性不高的问题。

Description

自定义词管理装置、方法及分词系统
技术领域
本发明涉及中文信息处理技术领域,特别涉及一种自定义词管理装置、方法及分词系统。
背景技术
中文信息处理技术现已在计算机网络、数据库技术、软件工程等领域得到了广泛应用,而中文分词是中文信息处理的一项重要的基础性工作,在许多中文信息处理项目(例如:机器翻译、自动文摘、自动分类、文献库全文检索、搜索引擎等)中都会涉及到中文分词问题。
众所周知,英文是以词为单位的,词和词之间有空格隔开。例如,英文句子:I am a student(我是一个学生)。计算机可以很简单地通过空格知道student(学生)是一个单词。然而,中文是以字为单位的,所有字连起来才能描述一个意思,句子中的字和字之间没有类似空格这样的分割标记。例如,中文句子:我是一个学生。计算机就很难明白“学”、“生”两个字合起来才表示一个词。因此,在中文文本处理中,首先需要解决的问题是对文中每个句子进行中文分词(也称切词),即为句中的每个词增加一个词界标记。例如,对上面中文句子的分词的结果是:“我”“是”“一个”“学生”。
参见图1,图1为现有技术中中文分词方法的流程示意图。由图1可见,该方法包括:
步骤101、生成自定义词典。
现有的自定义词典一般为一个单独的文本文件,在该文件的每行中存储了一个用户添加的自定义词。在收录自定义时,通常可以采用机器学习的方法训练得到,如互信息或基于字标注的最大熵、条件随机场等方法;也可以采用人工添加自定义词的方法得到。
步骤102、利用自定义词典进行中文分词。
按照一定的策略将待识别的中文文本切分为汉字串,并将自定义词典中所有自定义词加载到内存中,将上述汉字串与上述自定义词典中的自定义词逐个进行匹配,若在词典中找到相应自定义词,则匹配成功,从而识别出一个词。
显然,采用上述方法保证了待识别的中文文本中包含有词典中自定义词时的中文分词情况。但是,由于现有技术的自定义词典中只是机械地存储了自定义词本身,这就存在一个问题:用户利用自定义词进行中文分词时的准确性不高。
具体来说,存储在词典中的某个自定义词可能在某个体裁的语境中应该被作为一个整体切出,而在另一个体裁的语境中,就不应该被作为一个整体切出。例如:人可以很容易理解句子“马晓虎去北京玩了”中的“马晓虎”是一个词,即一个人的名字,但要是让计算机去识别就困难了。这时如果把“马晓虎”作为一个自定义词收录到词典中了。那么在另一句子“马晓虎头虎脑的”中“马晓虎”就会被错误地作为一个整体切出。
显然,本领域技术人员可以领会到上述对中文分词的分析,也适用于例如韩文、日文等其他类似语言的分词过程中。
发明内容
有鉴于此,本发明的实施例提供了自定义词管理装置、方法及分词系统,解决了用户利用自定义词进行分词时的准确性不高的问题。
根据本发明一个实施例的一种自定义词管理装置,包括:
接收模块,用于接收用户输入的自定义词及其属性;
词典生成模块,用于根据所述自定义词及其属性,生成自定义词典;
词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
根据本发明另一实施例的一种自定义词管理方法,包括:
接收用户输入的自定义词及其属性;
根据所述自定义词及其属性,生成自定义词典;
将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
根据本发明又一实施例的一种分词系统,包括:
自定义词管理装置,用于接收用户输入的自定义词及其属性,根据所述自定义词及其属性生成自定义词典,并将所述自定义词典中的自定义词及其属性加载到内存中;
分词装置,用于利用加载在内存中的自定义词及其属性,对待识别文本进行分词,匹配所述待识别文本中的自定义词,并为所述匹配成功的自定义词进行属性标注。
由上述的技术方案可见,相比现有技术,本发明实施例提供的自定义词管理装置、方法及分词系统,可以接收用户输入的自定义词及其属性,根据上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。利用本发明实施例提供的自定义词典进行分词时,除了可以提供用户输入的自定义词本身外,还可以提供该自定义词的相关属性。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发明解决了用户利用自定义词进行分词时的准确性不高的问题。
附图说明
图1为现有技术中中文分词方法的流程示意图;
图2为本发明实施例中自定义词管理装置的结构示意图;
图3为本发明实施例中自定义词管理方法的流程示意图;
图4为本发明实施例一中自定义词管理装置的结构示意图;
图5为本发明实施例一中自定义词管理方法的流程示意图;
图6为本发明实施例二中自定义词管理装置的结构示意图;
图7为本发明实施例二中自定义词管理方法的流程示意图;
图8为本发明实施例三中分词系统的结构示意图;
图9为本发明实施例三中分词方法的流程示意图;
图10为本发明实施例三中自定义词典的组织结构示意图;
图11为本发明实施例三中类别表的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明实施例提供的自定义词管理装置及方法,可以接收用户输入的自定义词及其属性;根据上述自定义词及其属性生成自定义词典;并将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。
参见图2,图2为本发明实施例中自定义词管理装置的结构示意图。由图2可见,该装置包括:接收模块201、词典生成模块202、词典加载模块204。
其中,接收模块201用于接收用户输入的自定义词及其属性。
词典生成模块202用于根据上述自定义词及其属性,生成自定义词典。
词典加载模块204用于将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。
参见图3,图3为本发明实施例中自定义词管理方法的流程示意图。由图3可见,该方法包括:
步骤301、接收用户输入的自定义词及其属性。
步骤302、根据上述自定义词及其属性,生成自定义词典。
步骤303、将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。
下面,通过实施例对本发明提供的好友添加装置及方法进行详细说明。
实施例一
参见图4,图4为本发明实施例一中自定义词管理装置的结构示意图。由图4可见,该装置包括:接收模块201、词典生成模块202、词典加载模块204。
其中,接收模块201包括:自定义词接收单元2011、类别属性接收单元2012和词性属性接收单元2013。
自定义词接收单元2011用于接收用户输入的自定义词。
类别属性接收单元2012用于接收用户输入的自定义词的类别属性。
词性属性接收单元2013用于接收用户输入的自定义词的词性属性。
词典生成模块202用于根据上述自定义词及其属性,生成自定义词典。
词典加载模块204用于将上述自定义词典中的自定义词及其属性加载到内存中,等待分词时进行调用。
参见图5,图5为本发明实施例一中自定义词管理方法的流程示意图。由图5可见,该方法包括:
步骤501、接收用户输入的自定义词。
自定义词管理装置可以接收用户采用人工添加方法得到的自定义词,也可以接收其他方法得到的自定义词。其中,自定义词是指除去现有技术的核心词典中包含的常用词汇外,诸如人名、地名、组织机构名、科技术语、网络语言之类的新词。
步骤502、接收上述自定义词的类别属性和/或词性属性。
自定义词管理装置在接收到上述自定义词后,还可以进一步接收上述自定义词的类别属性和/或词性属性。例如,用户接收到“魔兽”这个自定义词后,还可以进一步接收“魔兽”为名词属性且属于游戏类别。如果该自定义词包括多个类别属性和/或词性属性时,则自定义词管理装置接收全部类别属性和/或词性属性。
步骤503、生成包含上述自定义词及其属性的自定义词典。
自定义词管理装置采用目录文件体系结构的方式生成自定义词典,根据接收到的自定义词的类别属性,逐级创建对应于各个类别的目录或文件。目录名为大类别,目录下的自定义词文件为该大类别下的某一个特定的小类别。该自定义词文件的中每行包含一个具体的用户自定义词条,该词条如果有词性,则词性和词之间用“,”分隔,如包含多个词性,则词性与词性之间用“|”分隔,该词条后也可以不包含词性,则系统默认会给出一个名词词性。
步骤504、将上述自定义词典中的自定义词及其属性加载到内存中,等待分词时进行调用。
本实施例提供的自定义词管理装置、方法,可以接收用户输入的自定义词及其类别和/或词性属性,根据上述自定义词及其类别和/或词性属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中,等待分词时进行调用。利用本发明实施例提供的自定义词典进行分词时,除了可以提供用户输入的自定义词本身外,还可以提供该自定义词的相关属性。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发明解决了用户利用自定义词进行分词时的准确性不高的问题。
实施例二
本实施例在实施例一的基础上,在自定义词管理装置中进一步增加了根据类别加载自定义词的功能和自定义词典的动态管理功能,通过以上功能可以根据用户需要的类别加载自定义词典中的自定义词,还可以为用户管理自定义词典提供便利。
参见图6,图6为本发明实施例二中自定义词管理装置的结构示意图。由图6可见,该装置包括:接收模块201、词典生成模块202、词典加载模块204。该装置还可以包括:类别选择模块603。
其中,接收模块201、词典生成模块202与实施例一中的功能相同。
类别选择模块603用于根据自定义词的类别属性,生成自定义词典的类别表,并提供给用户进行选择。
词典加载模块204用于根据用户在类别表中选择的类别,将自定义词典中对应的自定义词及其属性加载到内存中。
该装置还可以进一步包括:词典编辑模块605、词典备份模块606。
词典编辑模块605用于对加载在内存中的自定义词进行编辑。
词典备份模块606用于根据用户请求或实时地对加载在内存中的自定义词进行备份。
参见图7,图7为本发明实施例二中自定义词管理方法的流程示意图。由图7可见,该方法包括:
步骤701、接收用户输入的自定义词。
步骤702、接收上述自定义词的类别属性和/或词性属性。
步骤703、生成包含上述自定义词及其属性的自定义词典。
该方法还可以包括:
步骤704、根据自定义词的类别属性,生成自定义词典的类别表,并提供给用户进行选择。
自定义词管理装置获得自定义词典中所有类别的用户自定义词文件的目录路径,及其对应的类别信息,将上述信息保存在配置文件中,并根据配置文件中保存的上述类别信息,生成自定义词的类别表提供给用户进行选择。
步骤705、根据用户在类别表中选择的类别,将自定义词典中对应的自定义词及其属性加载到内存中。
用户选择某类别后,将上述自定义词文件(组)中的全部自定义词加载到内存中,同时给每个自定义词关联上其所属的类别和该自定义词的词性。
该方法还可以进一步包括:
步骤706、对加载在内存中的自定义词进行编辑。
如果用户发现加载到内存中的自定义词拼写、词性或者类别有误时,可以对加载在内存中的自定义词进行修改或删除,用户还可以直接在内存中将自定义词典中未包含的自定义词添加到词典中。
步骤707、根据用户请求或实时地对加载在内存中的自定义词进行备份。
当用户编辑完自定义词后,自定义词管理装置可以自动将内存中的全部自定义词保存到相应目录的相应自定义词文件中。自定义词管理装置也可以也可以根据用户请求将内存中的全部自定义词保存到相应目录的相应自定义词文件中。
本实施例提供的自定义词管理装置、方法,在实施例一的基础上可以根据用户选择的自定义词类别,将对应的自定义词及其属性加载到分词装置中进行分词,并为自定义词典提供了动态管理功能。
实施例三
本实施例在实施例二的基础上,进一步提出一种分词系统。本发明实施例提供的分词系统,可以接收用户输入的自定义词及其属性,根据上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中,对待识别文本进行分词。
参见图8,图8为本发明实施例三中分词系统的结构示意图。由图8可见,该系统包括:自定义词管理装置801、分词装置802。
其中,自定义词管理装置用于接收用户输入的自定义词及其属性,根据上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中。
该装置可以采用上述实施例中的任一种自定义词管理装置实现。
分词装置802用于利用加载在内存中的自定义词及其属性,对待识别文本进行分词,匹配上述待识别文本中的自定义词,并为上述匹配成功的自定义词进行属性标注。其中属性标注可以包括:词性标注和类别标注。
参见图9,图9为本发明实施例三中分词方法的流程示意图。由图9可见,该方法包括:
步骤901、接收用户输入的自定义词。
自定义词管理装置可以接收采用分词方法识别得到自定义词;可以接收采用机器学习方法训练得到自定义词,如采用互信息或基于字标注的最大熵、条件随机场等方法得到自定义词;可以接收用户采用人工添加方法得到的自定义词,也可以接收其他方法得到的自定义词。
步骤902、接收上述自定义词的类别。
自定义词管理装置在接收自定义词后,可以进一步接收用户输入的各个自定义词的类别属性。
步骤903、接收上述自定义词的词性。
自定义词管理装置还可以进一步接收用户输入的各个自定义词的词性属性。
需要注意的是,在本实施例中步骤502和步骤503并没有严格的先后次序,这里仅为了描述方便而先说明步骤502后说明步骤503。
步骤904、生成包含上述自定义词及其属性的自定义词典。
自定义词管理装置采用目录文件体系结构的方式生成自定义词典。具体来说,参见图10,图10为本发明实施例三中自定义词典的组织结构示意图。由图10可见,自定义词管理装置在系统的外部存储器上创建自定义词典的根目录,并根据接收到的自定义词的类别属性,对应各个类别逐级创建相应目录或文件。例如:位于根目录下的第一级子目录为第一级类别,即大类别,位于第一级子目录下的第二级子目录为第二级类别,即中类别,位于第二级子目录下的自定义词文件为该中类别下的某一个特定的小类别。当然,在第二级子目录下仍然可以继续嵌套子目录,以此类推,通过为自定义词添加各级目录的方式,为自定义词划分多种类别。
当然,本领域技术人员可以意识到,以目录管理的方式添加自定义词的类别属性仅仅是示范性的,在实际应用中也可以采用数据库等其他方式。
自定义词管理装置生成上述目录或文件后,将接收到的自定义词按照该自定义词类别保存在相应自定义词文件的一行中。上述自定义词文件可以是一个普通的文本文件,也可以是其他类型文件,用于保存用户自己定义的新词。自定义词文件中每行单独存储一个自定义词,在该自定义词后添加词性,词和词性之间用逗号(,)分隔,多个词性之间以“|”分隔,以回车换行结束,不计算多余的空格。当然,用户也可以不为自定义词典中的自定义词设置词性,由系统默认该自定义词为名词词性。当然,在实际应用中也可以将其他词性作为默认词性。
通过上述方式,自定义词管理装置以一种目录文件体系结构的方式将全部待输入的自定义词及其类别和词性信息保存起来,生成一个完整的自定义词典。
步骤905、生成自定义词典的类别信息,并提供给用户进行选择。
自定义词管理装置采用递归方式遍历用户自定义词典,获得其中所有类别的用户自定义词文件的目录路径,及其对应的类别信息,并将上述信息保存在配置文件中。其中,配置文件主要用于管理用户自定义词的加载方式,为用户提供类别表,对希望加载的自定义词类别进行控制。
自定义词管理装置根据配置文件中保存的类别信息,生成自定义词的类别表提供给用户进行选择。
参见图11,图11为本发明实施例三中类别表的示意图。由图11可见,类别表同样采用树形结构显示,当用户选择类别表中显示的某个大类的名称时,自定义词管理装置加载该个大类下面的所有小类中的自定义词;当用户选择类别表中显示的某个大类中某个小类的名称时,自定义词管理装置加载该特定的小类中的自定义词。
例如当用户需要对游戏文章进行分词的时候,用户可以在类别表中选择“游戏”类别,这时自定义词管理装置根据配置文件中的相应信息,将“游戏”类别中所有子类别的自定义词加载到内存中,同时记录所有自定义词所属的类别。如果能够用户能够进一步确定这是一篇关于魔兽游戏的文章,则用户可以在类别表中选择“魔兽”子类别,这时自定义词管理装置根据配置文件中的相应信息,将“魔兽”子类别中的全部自定义词加载到内存中,以更精确地对这篇文章进行分词。当然,如果用户不能确定所要分词的文章的类别时,也可以在类别表中选择全部类别,以便能够在分词的时候包括全部的自定义词。
步骤906、根据用户请求加载的类别信息,将对应的自定义词及其属性加载到内存中。
用户选择某类别后,自定义词管理装置分析配置文件中的该类别信息,得到需要加载的自定义词文件(组)的路径,将上述自定义词文件(组)中的全部自定义词以字符树(Trie)的方式加载到内存中,同时给每个自定义词关联上其所属的类别和词性。
步骤907、利用加载在内存中的自定义词进行分词。
自定义词管理装置将用户需要的自定义词加载到内存中后,提供给分词装置进行中文文本识别。
子步骤1、用户自定义词条匹配。
分词装置读取待识别文本当前汉字串序列中的一个汉字,在自定义词典中进行查找,若词典中存在这样的自定义词,则认为匹配成功,保存当前匹配结果,并在该汉字的基础上读取待识别文本当前汉字串序列中的下一个汉字加在上述汉字之后,即形成两个字的词,然后再在自定义词典中进行查找,若词典中存在这样的自定义词,则认为匹配成功,如此类推,循环该过程并记录中间匹配成功的词条,直至匹配失败为止,这样就可以得到从某一位置开始的所有可能词条。
子步骤2、针对上述匹配成功的自定义词进一步执行词性标注。
由于自定义词管理装置中保存的一个自定义词条可以有多个词性,因此当匹配出的一个包含多个词性的自定义词条的时候,需要确定在特定的上下文中具体选择该自定义词条的何种词性。
针对该问题,分词装置采用隐马尔科夫模型对自定义词、词性及其上下文建模,并采用Viterbi算法搜索确定最后的用户自定义词词性。该过程需要两步,第一步为用户自定义词词性标注模型训练,第二步为用户自定义词词性标注模型应用。
1)用户自定义词词性标注模型训练
在利用自定义词进行分词前,分词装置需要对自定义词管理装置中的所有自定义词训练两个参数,一个是P(W|T),一个是P(T|Th)。其中,W为用户自定义词,T为自定义词的词性,Th为自定义词前驱词的词性,P(W|T)为自定义词为某个词性时使用该自定义词的概率,P(T|Th)为自定义词的前驱词为某个词性时使用该自定义词某个词性的概率。
分词装置在训练时进一步采用相应的平滑算法来解决数据稀疏问题。训练结束后,分词装置就可以得到一个针对用户自定义词的词性标注隐马模型。
2)用户自定义词词性标注模型应用
在利用自定义词进行分词时,分词装置利用上个步骤得到的词性标注隐马模型就可以对匹配出的包含多个词性的用户自定义词进行词性标注,即确定该自定义词在当前待识别文本中的词性。该标注过程采用隐马尔科夫模型建模,并采用Viterbi算法解码,以确定最优的词性。
子步骤3、针对上述匹配成功的自定义词进一步执行类别标注。
由于自定义词管理装置中保存的一个自定义词条可以属于多个类别,因此当匹配出的一个包含多个类别的用户自定义词条的时候,需要确定在特定的体裁的文本中具体选择该自定义词条的何种类别。
针对该问题,分词装置采用隐马尔科夫模型对自定义词、类别及其上下文建模,并采用Viterbi算法搜索确定最后的用户自定义词类别。该过程需要两步,第一步为用户自定义词类别标注模型训练,第二步为用户自定义词类别标注模型应用。
1)用户自定义词类别标注模型训练
在利用自定义词进行分词前,分词装置需要对自定义词管理装置中的所有自定义词训练两个参数,一是P(W|C),一是P(C|Ch)。其中,W为用户自定义词,C为用户自定义词的类别,Ch为自定义词前驱词的类别,P(W|C)为自定义词为某个类别时使用该自定义词的概率,P(C|Ch)为自定义词的前驱词为某个词性时使用该自定义词某个词性的概率。
分词装置在训练时进一步采用相应的平滑算法来解决数据稀疏问题。训练结束后,分词装置就可以得到一个针对用户自定义词的类别标注隐马模型。
2)用户自定义词类别标注模型应用
在利用自定义词进行分词时,分词装置利用上个步骤得到的类别标注隐马模型就可以对匹配出的包含多个类别的用户自定义词进行类别标注了,即确定该自定义词在当前待识别文本中的类别。该标注过程采用隐马尔科夫模型建模,并采用Viterbi算法解码,以确定最优的类别。
通过上面几个子步骤,分词装置就可以成功地实现分词,并输出分词的词性、类别属性。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在特定语境中该分词方式是否正确。
分词装置可以根据用户请求,单独输出匹配出的用户自定义词。例如,待识别中文文本为“我们一起去玩QQ飞车吧”,假设这段文本中的“QQ飞车”一词为自定义词管理装置中游戏类别下的用户自定义词,如果此时用户只需要分词结果时,那么分词装置将把“QQ飞车”作为一个独立的词输出。
分词装置也可以根据用户请求,输出匹配出的用户自定义词及其标注。例如,同样对于“我们一起去玩QQ飞车吧”这段文本,如果用户在输出“QQ飞车”这个用户自定义词的时候还希望输出其词性,那么分词装置输出“QQ飞车”、以及这里的词性(例如“名词(n)”)、和这里该词所属的类别(例如,为“游戏(game)”)。
当然,本领域技术人员可以意识到,在实际应用中,分词装置还可以采用其他识别算法,以进一步提高用户利用自定义词进行分词时的准确性。
另外需要注意的是,在本步骤中的子步骤2和子步骤3并没有严格的先后次序,这里仅为了描述方便而先说明子步骤2后说明子步骤3。
步骤908、对加载在内存中的自定义词进行编辑。
当分词装置利用自定义词管理装置中的自定义词进行分词时,自定义词管理装置可以对加载在内存中的自定义词进行检索,将用户指定的自定义词及其词性和类别显示给用户。
如果用户发现上述自定义词拼写、词性或者类别有误时,可以对加载在内存中的自定义词进行编辑。例如,如果用户发现自定义词管理装置中被载入内存中的某个自定义词不正确,可以直接在内存中删除该词条。又如,如果用户发现某个类别的词条拼写有误时,可以直接在内存中将该词条修改为正确的词条。再如,如果用户在进行分词时发现某个自定义词在相关类别的自定义词典未收录而导致切分错误,可以直接在内存中将该词条添加到相应类别的词典中。
步骤909、对加载在内存中的自定义词进行备份。
自定义词管理装置可以对自定义词进行实时备份。即当用户编辑完自定义词后,自定义词管理装置可以自动将内存中的全部自定义词保存到相应目录的相应自定义词文件中。
自定义词管理装置也可以根据用户请求或者在分词系统关闭时,对自定义词进行备份。
当然,本领域技术人员可以意识到,在实际应用中,自定义词管理装置也可以采用增量备份的方式,以节约系统在备份过程需要占用的资源。
由上述的实施例可见,现有技术中在利用自定义词典进行分词时,由于在自定义词典中只是机械地存储了自定义词本身,所以自定义词典仅能提供自定义词本身,这就造成用户利用自定义词进行分词时的准确性不高。应用本发明,分词系统可以接收用户输入的自定义词及其属性,根据上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中,对待识别文本进行分词。通过该分词系统,用户可以利用自定义词典对待识别文本进行自定义词匹配,并可以对匹配出的自定义词进行词性标注和/或类别标注,还可以对自定义词典进行动态管理。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发明实施例解决了用户利用自定义词进行分词时的准确性不高的问题,提高了利用自定义词典进行分词时的效率。
本领域技术人员可以领会到本发明不仅可以应用于中文分词中,也适用于例如韩文、日文等其他类似语言的分词过程中。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (17)

1、一种自定义词管理装置,其特征在于,包括:
接收模块,用于接收用户输入的自定义词及其属性;
词典生成模块,用于根据所述自定义词及其属性,生成自定义词典;
词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
2、如权利要求1所述的装置,其特征在于,所述接收模块包括:
自定义词接收单元,用于接收用户输入的自定义词;
类别属性接收单元,用于接收用户输入的自定义词的类别属性;
词性属性接收单元,用于接收用户输入的自定义词的词性属性。
3、如权利要求1所述的装置,其特征在于,所述词典生成模块用于采用目录文件体系结构的方式,根据接收到的自定义词的类别属性,逐级创建对应于各个类别的目录或文件,生成自定义词典。
4、如权利要求1所述的装置,其特征在于,进一步包括:
类别选择模块,用于根据自定义词的类别属性,生成自定义词典的类别表,并提供给用户进行选择;
所述词典加载模块,用于根据用户在类别表中选择的类别,将自定义词典中对应的自定义词及其属性加载到内存中。
5、如权利要求1至4中任一项所述的装置,其特征在于,所述词典加载模块用于将所述自定义词典中的自定义词及其属性以字符树的方式加载到内存中。
6、如权利要求5所述的装置,其特征在于,进一步包括:
词典编辑模块,用于对加载在内存中的自定义词进行编辑。
7、如权利要求6所述的装置,其特征在于,进一步包括:
词典备份模块,用于根据用户请求或实时地对加载在内存中的自定义词进行备份。
8、一种自定义词管理方法,其特征在于,包括:
接收用户输入的自定义词及其属性;
根据所述自定义词及其属性,生成自定义词典;
将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
9、如权利要求8所述的方法,其特征在于,所述接收用户输入的自定义词及其属性包括:
接收用户输入的自定义词;
接收所述自定义词的类别属性和/或词性属性。
10、如权利要求8所述的方法,其特征在于,所述根据自定义词及其属性,生成自定义词典包括:
采用目录文件体系结构的方式,根据接收到的自定义词的类别属性,逐级创建对应于各个类别的目录或文件,生成自定义词典。
11、如权利要求8所述的方法,其特征在于,所述将自定义词典中的自定义词及其属性加载到内存中包括:
根据自定义词的类别属性,生成自定义词典的类别表,并提供给用户进行选择;
根据用户在类别表中选择的类别,将自定义词典中对应的自定义词及其属性加载到内存中。
12、如权利要求11所述的方法,其特征在于,所述生成自定义词典的类别表包括:
采用递归方式遍历用户自定义词典;
获得其中所有类别的用户自定义词文件的目录路径,及其对应的类别信息;
将所述信息保存在配置文件中;
根据配置文件中保存的类别信息,生成自定义词的类别表。
13、如权利要求8至12任一项所述的方法,其特征在于,所述将自定义词典中的自定义词及其属性加载到内存中包括:
将所述自定义词典中的自定义词及其属性以字符树的方式加载到内存中。
14、如权利要求8所述的方法,其特征在于,进一步包括:
利用加载在内存中的自定义词及其属性,对待识别文本进行分词,匹配所述待识别文本中的自定义词,并为所述匹配成功的自定义词进行属性标注。
15、如权利要求14所述的方法,其特征在于,进一步包括:
对加载在内存中的自定义词进行编辑。
16、如权利要求15所述的方法,其特征在于,进一步包括:
根据用户请求或实时地对加载在内存中的自定义词进行备份。
17、一种分词系统,其特征在于,包括:
自定义词管理装置,用于接收用户输入的自定义词及其属性,根据所述自定义词及其属性生成自定义词典,并将所述自定义词典中的自定义词及其属性加载到内存中;
分词装置,用于利用加载在内存中的自定义词及其属性,对待识别文本进行分词,匹配所述待识别文本中的自定义词,并为所述匹配成功的自定义词进行属性标注。
CN2008100904621A 2008-04-16 2008-04-16 自定义词管理装置、方法 Active CN101256557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100904621A CN101256557B (zh) 2008-04-16 2008-04-16 自定义词管理装置、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100904621A CN101256557B (zh) 2008-04-16 2008-04-16 自定义词管理装置、方法

Publications (2)

Publication Number Publication Date
CN101256557A true CN101256557A (zh) 2008-09-03
CN101256557B CN101256557B (zh) 2010-06-23

Family

ID=39891389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100904621A Active CN101256557B (zh) 2008-04-16 2008-04-16 自定义词管理装置、方法

Country Status (1)

Country Link
CN (1) CN101256557B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103842988A (zh) * 2011-10-06 2014-06-04 谷歌公司 基于网络的定制词典、自动校正及文本键入偏好
CN104462052A (zh) * 2013-09-22 2015-03-25 上海博科资讯股份有限公司 一种实现智能联想的行业词语关联度分词方法
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN106681981A (zh) * 2015-11-09 2017-05-17 北京国双科技有限公司 中文词性的标注方法和装置
CN109213993A (zh) * 2018-07-20 2019-01-15 沈文策 一种添加自定义分词的方法和装置
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN111090992A (zh) * 2019-12-13 2020-05-01 厦门市美亚柏科信息股份有限公司 一种文本预处理方法、装置及存储介质
WO2020147333A1 (zh) * 2019-01-16 2020-07-23 苏宁云计算有限公司 一种可自定义的词典加载方法及装置
CN111597799A (zh) * 2019-02-01 2020-08-28 北京国双科技有限公司 基于深度学习的文本处理方法及相关设备
CN112000769A (zh) * 2020-08-17 2020-11-27 东北林业大学 一种基于对抗网络的服装商品广告文案生成方法
CN113486660A (zh) * 2021-06-30 2021-10-08 上海众言网络科技有限公司 适用于多用户自定义字典的中文分词词频方法及装置
CN113506199A (zh) * 2021-07-29 2021-10-15 广西电力职业技术学院 一种构建多语言共享教育平台的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135953B (zh) * 2011-03-29 2012-12-12 中国科学院自动化研究所 文本一致性编辑方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149679A (zh) * 2006-09-21 2008-03-26 腾讯科技(深圳)有限公司 在输入法词库中添加自定义词的方法及文字输入装置
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103842988A (zh) * 2011-10-06 2014-06-04 谷歌公司 基于网络的定制词典、自动校正及文本键入偏好
CN103842988B (zh) * 2011-10-06 2018-01-19 谷歌公司 基于网络的定制词典、自动校正及文本键入偏好
CN104462052A (zh) * 2013-09-22 2015-03-25 上海博科资讯股份有限公司 一种实现智能联想的行业词语关联度分词方法
CN104679738B (zh) * 2013-11-27 2018-02-27 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN106681981B (zh) * 2015-11-09 2019-10-25 北京国双科技有限公司 中文词性的标注方法和装置
CN106681981A (zh) * 2015-11-09 2017-05-17 北京国双科技有限公司 中文词性的标注方法和装置
CN109213993A (zh) * 2018-07-20 2019-01-15 沈文策 一种添加自定义分词的方法和装置
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
WO2020147333A1 (zh) * 2019-01-16 2020-07-23 苏宁云计算有限公司 一种可自定义的词典加载方法及装置
CN111597799A (zh) * 2019-02-01 2020-08-28 北京国双科技有限公司 基于深度学习的文本处理方法及相关设备
CN111090992A (zh) * 2019-12-13 2020-05-01 厦门市美亚柏科信息股份有限公司 一种文本预处理方法、装置及存储介质
CN111090992B (zh) * 2019-12-13 2022-12-06 厦门市美亚柏科信息股份有限公司 一种文本预处理方法、装置及存储介质
CN112000769A (zh) * 2020-08-17 2020-11-27 东北林业大学 一种基于对抗网络的服装商品广告文案生成方法
CN113486660A (zh) * 2021-06-30 2021-10-08 上海众言网络科技有限公司 适用于多用户自定义字典的中文分词词频方法及装置
CN113506199A (zh) * 2021-07-29 2021-10-15 广西电力职业技术学院 一种构建多语言共享教育平台的方法

Also Published As

Publication number Publication date
CN101256557B (zh) 2010-06-23

Similar Documents

Publication Publication Date Title
CN101256557B (zh) 自定义词管理装置、方法
CN110543644B (zh) 包含术语翻译的机器翻译方法、装置与电子设备
CN108874917B (zh) 意图识别方法、装置、设备及存储介质
US7925506B2 (en) Speech recognition accuracy via concept to keyword mapping
EP2317508B1 (en) Grammar rule generation for speech recognition
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
US20080215519A1 (en) Method and data processing system for the controlled query of structured saved information
CN111506712B (zh) 对话系统、对话方法、程序以及存储介质
CN101076061A (zh) 一种机器人服务器及自动聊天方法
CA2360067A1 (en) Any-to-any component computing system
CN109817210A (zh) 语音写作方法、装置、终端和存储介质
CN111026886A (zh) 一种针对专业场景的多轮对话处理方法
WO2016087982A1 (en) Persona-based profiles in question answering system
WO2024011813A1 (zh) 一种文本扩展方法、装置、设备及介质
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CA2880554C (en) System and methods for improving accuracy of speech recognition
CN107220381A (zh) 一种面向问答系统的输入文本自动纠错方法
CN110866400A (zh) 一种自动化更新的词法分析系统
CN117035064B (zh) 一种检索增强语言模型的联合训练方法及存储介质
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置
CN112183097B (zh) 一种实体召回方法及相关装置
CN110334337B (zh) 一种基于中医古籍文献的短语挖掘方法和系统
CN118245613A (zh) 一种基于大模型的客服知识库扩充方法、系统及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant