CN101836205A - 域词典创建 - Google Patents

域词典创建 Download PDF

Info

Publication number
CN101836205A
CN101836205A CN200880112723A CN200880112723A CN101836205A CN 101836205 A CN101836205 A CN 101836205A CN 200880112723 A CN200880112723 A CN 200880112723A CN 200880112723 A CN200880112723 A CN 200880112723A CN 101836205 A CN101836205 A CN 101836205A
Authority
CN
China
Prior art keywords
corpus
speech
word
descriptor
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880112723A
Other languages
English (en)
Inventor
吴军
唐溪柳
洪锋
王咏刚
杨波
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/844,153 external-priority patent/US7917355B2/en
Priority claimed from US11/844,067 external-priority patent/US7983902B2/en
Application filed by Google LLC filed Critical Google LLC
Publication of CN101836205A publication Critical patent/CN101836205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

公开了用于在包括与主题相关的主题文档的文档语料库中识别主题词的方法、系统和装置,包括计算机程序产品。基于文档语料库和主题文档语料库确定基准主题词散度值。基于文档语料库和主题文档语料库确定候选主题词的候选主题词散度值。如果候选主题词散度值大于基准主题词散度值,则确定候选主题词是主题词。

Description

域词典创建
相关申请的交叉引用
本申请要求于2007年8月23日提交的美国申请第11/844,067号和第11/844,153号的优先权。应认为前述申请的公开内容是本申请公开内容的一部分(并且通过引用被合并于此)。
技术领域
本公开涉及用于自然语言处理应用的词典,所述自然语言处理应用诸如机器翻译、非罗马语言词的分割、语音识别和输入法编辑器。
背景技术
在诸如语音处理系统、手写/光学字符识别系统、自动翻译系统的数据处理系统中使用越来越高级的自然语言处理技术,或在文字处理系统中使用越来越高级的自然语言处理技术来进行拼写/语法检查。这些自然语言处理技术可以包括自动更新用于自然语言应用的词典,所述自然语言应用与例如非罗马语言词的分割、机器翻译、自动校对、语音识别、输入法编辑器等相关。
在词符文字(logographic script)中,一个或两个字符(例如象形文字(glyphs))对应于一个词或一种含意,使用词符文字的非罗马语言所具有的字符多于标准输入设备(如移动设备键区上的计算机键盘)上的键。例如,中文语言包含由基本语音或拼音字符和五个音调定义的几千个表意字符。可以通过帮助输入在输入设备上找不到的字符和符号(symbol)的输入法来实现这些多对一关联的映射。因此,可以使用西式键盘来输入中文、日文或韩文字符。
可以使用输入法编辑器来实现输入方法。这样的输入法编辑器可以包括或访问词和/或短语的词典。然而,语言的词汇(lexicon)总是在发展,因此用于输入法编辑器的词典可能需要频繁的更新。例如,新词可能被快速地引入到语言中,例如流行文化中涉及的内容或产品的新商标名可能被引入到词汇中。由于用户不能利用或难以利用输入法编辑器来将新词输入到输入栏中,因此不能以及时的方式更新输入法编辑器词典会降低用户体验。例如,用户可能希望向搜索引擎提交新词(例如新商标名)作为搜索查询。然而,如果输入法编辑器不能识别出该新词,则用户可能在向搜索引擎输入新词时遇到困难。
在诸如中文、日文、泰语和韩文的一些语言中,在句子中没有词边界。因此,由于新词是字符或现有词的复合序列,所以不能容易地识别文本中的新词。这使得对于这些语言而言新词检测是困难的任务。此外,一旦识别了新词,就期望识别与新词和其他现有词相关的主题。识别这样的主题能够改进语言模型和/或系统或设备的性能,所述系统或设备使用在句子中没有边界的语言或其他语言的语言模型。
发明内容
在此公开了用于自动识别主题域并且创建与主题域相关的域词典的方法、系统和装置。在一种实现方式中,一种方法包括确定主题散度值,该主题散度值基本上与一比值成比例,该比值是在主题文档语料库中的第一主题词分布与在文档语料库中的第二主题词分布的比值。主题文档语料库是与主题相关的主题文档的语料库,并且文档语料库是包括主题文档和其他文档的文档的语料库。该方法还包括确定候选主题词的候选主题词散度值。候选主题词散度值基本上与一比值成比例,该比值是在主题文档语料库中候选主题词的第一分布与在文档语料库中候选主题词的第二分布的比值。该方法基于候选主题词散度值和主题散度值确定候选主题词是否是新主题词。
在另一实现方式中,一种方法包括:选择主题词典,该主题词典包括与主题相关的主题词;以及基于主题词、文档语料库和主题文档语料库确定主题词散度值。主题文档语料库是与主题相关的主题文档的语料库,并且文档语料库是包括主题文档和其他文档的文档的语料库。主题词是与主题相关的词。该方法还包括基于文档语料库和主题文档语料库确定候选主题词的候选主题词散度值,并且基于候选主题词散度值和主题词散度值确定候选主题词是否是新主题词。
在另一实现方式中,一种系统包括数据存储单元、主题词处理模块和词典更新器模块。数据存储单元存储主题词典,该主题词典包括与主题相关的主题词。主题词处理模块被配置为基于主题词、文档语料库和主题文档语料库确定主题词散度值。主题文档语料库是与主题相关的主题文档的语料库,并且文档语料库是包括主题文档和其他文档的文档的语料库。主题词是在与主题相关的主题词典中的词。主题词处理模块还被配置为选择候选主题词并且基于文档语料库和主题文档语料库确定候选主题词的候选主题词散度值,并且基于候选主题词散度值和主题词散度值确定候选主题词是否是主题词。词典更新器模块被配置为:如果确定候选主题词是主题词,则将该候选主题词存储在主题词典中。
根据在本公开中提供的方法、系统和装置,可以改进使用语言模型的系统的数据处理性能,所述语言模型例如是用于在句子中没有边界的语言的语言模型。例如,系统或设备可以通过使用自动更新的主题词典,改进语音处理、手写/光学字符识别、自动翻译、自动分类、自动摘要和/或词处理系统的拼写/语法检查的性能。
在附图和下面的描述中阐述在本说明书中描述的主题的一个或多个实施例的细节。根据所述描述、附图以及权利要求,所述主题的其他特征、方面和优点将变得清楚易懂。
附图说明
图1A是可以用来实现输入法编辑器的示例设备100的框图。
图1B是示例输入法编辑器系统120的框图。
图2A是示例词检测系统的框图。
图2B是图2A的系统的示例实现的框图。
图3是用于识别词语料库中的新词的示例过程的流程图。
图4是用于为候选词和现有词确定熵相关量度的示例过程的流程图。
图5是用于识别词语料库中的新词的另一示例过程的流程图。
图6是用于基于来自另一词语料库的词概率识别词语料库中的新词的另一示例过程的流程图。
图7A是示例主题词识别系统的框图。
图7B是图7A的系统的更详细的框图。
图8是用于识别主题词的示例过程的流程图。
图9是用于确定主题词散度(divergence)值的示例过程的流程图。
图10是示例文档和词聚类(clustering)过程的流程图。
图11是用于识别主题词的另一示例过程的流程图。
在各个附图中,相同的参考数字和附图标记表示相同的元素。
具体实施方式
图1A是可以用来实现输入法编辑器(IME)的示例设备100的框图。设备100可以例如被实现在诸如个人计算机设备、网络服务器、电信交换机的计算机设备中,或被实现在诸如移动电话、移动通信设备、个人数字助理(PDA)、游戏盒等的其他电子设备中。
示例设备100包括处理设备102、第一数据存储单元104、第二数据存储单元106、输入设备108、输出设备110和网络接口112。可以使用包括例如数据总线和主板的总线系统114来建立和控制在组件102、104、106、108、110和112之间的数据通信。也可以使用其他示例系统架构。
处理设备102可以例如包括一个或多个微处理器。第一数据存储单元104可以例如包括诸如动态随机存取存储器的随机存取存储器存储设备、或其他类型的计算机可读介质存储器设备。第二数据存储单元106可以例如包括一个或多个硬盘驱动器、闪速存储器和/或只读存储器、或其他类型的计算机可读介质存储器设备。
示例输入设备108可以包括键盘、鼠标、触笔、触摸屏显示器等,并且示例输出设备110可以包括显示设备、音频设备等。网络接口112可以例如包括有线或无线网络设备,其可操作用于向网络116发送数据和从网络116接收数据。网络116可以包括一个或多个局域网(LAN)和/或广域网(WAN),如因特网。
在一些实现方式中,设备100可以在诸如数据存储单元106的数据存储单元中包括输入法编辑器代码101。输入法编辑器代码101可以由指令定义,所述指令在执行时使得处理设备102执行输入法编辑功能。在实现方式中,输入法编辑器代码101可以例如包括解译指令,如能在网络浏览器环境下执行的脚本指令,例如JavaScript或ECMAScript指令。也可以使用其他实现方式,例如编译指令、单机应用、applet(Java小应用程序)、插件模块等。
执行输入法编辑器代码101生成或启动输入法编辑器实例103。输入法编辑器实例103可以定义输入法编辑器环境,例如用户界面,并且可以有助于在设备100处理一个或多个输入法,在所述处理期间,设备100可以接收用于输入字符、表意符号(ideogram)或符号(诸如例如汉字字符)的组合输入(composition input)。例如,用户可以使用一个或多个输入设备108(例如,诸如西式键盘的键盘、具有手写识别引擎的触笔等)来输入用于识别汉字字符的组合输入。在一些示例中,汉字字符可以与多于一个的组合输入相关联。
第一数据存储单元104和/或第二数据存储单元106可以存储组合输入和字符的关联。基于用户输入,输入法编辑器实例103可以使用数据存储单元104和/或数据存储单元106中的信息来识别输入所代表的一个或多个候选字符。在一些实现方式中,如果识别出多于一个的候选字符,则在输出设备110上显示所述候选字符。使用输入设备108,用户可以从候选字符中选择用户希望输入的汉字字符。
在一些实现方式中,设备100上的输入法编辑器实例103可以接收一个或多个拼音组合输入,并将组合输入转换成汉字字符。输入法编辑器实例103可以例如使用从键击接收的拼音音节或字符的组合来表示汉字字符。每个拼音音节可以例如对应于西式键盘中的一个键。使用拼音输入法编辑器,用户可以利用组合输入来输入汉字字符,所述组合输入包括表示汉字字符的读音的一个或多个拼音音节。使用拼音IME,用户也可以利用组合输入来输入包括两个或更多个汉字字符的词,所述组合输入包括表示汉字字符的读音的两个或更多个拼音音节。然而,用于其他语言的输入法也可以受益于此。
也可以将其他应用软件105存储在数据存储单元104和/或106中,包括网页浏览器、文字处理程序、电子邮件客户端等。这些应用中的每一个可以生成相应的应用实例107。每个应用实例可以定义这样的环境,该环境通过向用户呈现数据并便利来自用户的数据输入而便利用户体验。例如,网页浏览器软件可以生成搜索引擎环境;电子邮件软件可以生成电子邮件环境;文字处理程序可以生成编辑器环境等。
在一些实现方式中,也可以使用可访问设备100的远程计算系统118来编辑词符文字。例如,设备100可以是经由网络116提供词符文字编辑能力的服务器。在一些示例中,用户可以使用例如客户端计算机的远程计算系统来编辑存储在数据存储单元104和/或数据存储单元106中的词符文字。替选地,用户可编辑存储在可访问设备100的远程系统118上的词符文字,例如设备100可以提供基于网络的输入法编辑器,所述输入法编辑器可以被客户端计算机利用。设备100可以例如通过网络接口112来选择字符和接收来自用户的组合输入。处理设备102可以例如识别与所选字符相邻的一个或多个字符,并且基于所接收的组合输入和相邻字符来识别一个或多个候选字符。设备100可以将包括候选字符的数据通信传送回远程计算系统。
也可以使用其他实现方式。例如,可以以applet或脚本的形式将输入法编辑器功能提供给客户端设备。
图1B是示例输入法编辑器系统120的框图。可以例如使用输入法编辑器代码101和相关联的数据存储单元104和106来实现输入法编辑器系统120。输入法编辑器系统120包括输入法编辑器引擎122、词典124和组合输入数据存储单元126。也可以使用其他实现方式和存储架构。在一些实现方式中,组合输入数据存储单元126可以包括语言模型。例如,语言模型可以是给定至少一个先前词时当前词的概率矩阵(例如一元模型(unigrammodel))。
在针对中文语言的实现方式中,用户可以使用IME系统120来通过打出拼音字符而输入中文词或短语。IME引擎122能够搜索词典124以识别候选词典条目,每个候选词典条目包括与拼音字符匹配的一个或多个中文词或短语。词典124包括条目128,条目128对应于在一个或多个语言模型中使用的词符文字的已知字符、词或短语,以及基于罗马语的字母表或西式字母表(例如英语、德语、西班牙语等)中的字符、词、和短语。
词可以包括一个汉字字符或连续汉字字符的序列。连续汉字字符的序列可以构成词典124中的多于一个的词。例如,含义为“apple”的词“苹果”包括两个构成汉字字符“苹”和“果”,分别对应于拼音输入“ping””和“guo”。字符“果”也是构成词,其含义为“fruit”(水果)。类似地,词“全球定位系统”由词典124中的三个词构成。构成词可以包括(1)含义为“global”的“全球”;(2)含义为“positioning”的“定位”;和(3)含义为“system”的“系统”。词“全球”、“定位”和“系统”中的每一个同样由词典124中存在的两个构成词构成。
词典条目128可以包括例如成语(例如“胸有成竹”)、专有名称(例如含义为“Republic of Austria”的“奥地利共和国”)、历史人物或名人的名字(例如含义为“Genghis Khan”的“成吉思汗”)、技术术语(例如含义为“GlobalPositioning System”的“全球定位系统”)、短语(“一去不复返”)、书名(例如含义为“Dream of the Red Chamber”的“红楼梦”)、艺术作品名称(例如含义为“Upper River During the Qing Ming Festival”的“清明上河图”)或电影名(例如含义为“Crouching Tiger,Hidden Dragon”的“卧虎藏龙”)等,每一个包括一个或多个字符。类似地,词典条目128可以包括例如地理实体或政治实体的名称、商号的名称、教育机构的名称、动物或植物的名称、机器名称、歌曲名称、游戏名称、软件程序名称、消费品名称等。词典124可以包括例如成千上万的字符、词和短语。
在一些实现方式中,词典124包括有关字符之间的关系的信息。例如,词典124可以包括根据与字符相邻的其他字符而分配给所述字符的分值或概率值。词典124可以包括条目分值或条目概率值,每个条目分值或条目概率值与词典条目128中的一个相关联,以指示通常条目128被使用的频率。
组合输入数据存储单元126包括组合输入与存储在词典124中的条目128之间的关联。在一些实现方式中,组合输入数据存储单元126可以将词典124中的每个条目链接到输入法编辑器引擎122所使用的组合输入(例如拼音输入)。例如,输入法编辑器引擎122可以使用词典124和组合输入数据存储单元126中的信息来将词典124中的一个或多个条目与组合输入数据存储单元126中的一个或多个组合输入相关联和/或利用组合输入数据存储单元126中的一个或多个组合输入识别词典124中的一个或多个条目。也可以使用其他关联。可以对IME系统120中的候选选择排序,并且可以根据排序在输入法编辑器中呈现候选选择。
在一些实现方式中,输入法编辑器引擎122可以使用组合输入数据存储单元126的语言模型来将条目相关联和/或识别条目。例如,IME系统120可以使用语言模型来基于一个或多个以前的输入词对候选关联进行排序。
词典124中存储的一些词和短语在词汇(lexicon)中可以具有很长的历史,而其他词和短语可以相对较新。因为语言的词汇在不断演进,所以词典124可能需要频繁的更新。为了帮助准确和及时的更新,可以利用词检测系统。
图2A是示例性词检测系统200的框图。词检测系统200包括词典(例如词典124)、词处理模块206、新词分析器模块208和词典更新器模块210。词检测系统可以通过例如广域网(WAN)202(诸如因特网)的网络来访问词语料库204。可以将词检测系统200配置为检测词语料库204中的新词。例如,词检测系统200可以从词语料库204中识别由汉字字符定义的新中文词。在一些实现方式中,词检测系统200通过将所识别的新词存储在词典124中来更新词典124。例如,词检测系统200可以将表示新中文词的条目添加到词典124中。然后可以将词典124提供给利用与词典124相兼容的输入法编辑器的计算机设备,和/或由该计算机设备来访问词典124。
词处理模块206、新词分析器模块208和词典更新器模块210可以是被配置为检测词语料库204中的新词的软件和/或硬件处理模块。所述模块的示例性软件实现方式包括存储在有形的计算机可读介质中且可由计算机处理设备执行的指令,所述计算机处理设备与所述有形的计算机可读介质进行数据通信。这样的指令可以包括目标代码、编译代码、解释性指令等。在一些实现方式中,可以将词处理模块206、新词分析器模块208和词典更新器模块210实现在一个或多个联网的服务器计算机中,例如服务器群(server farm)中,并且可以将词处理模块206、新词分析器模块208和词典更新器模块210配置为访问和处理大型词语料库,例如成千上万或甚至几百万的基于网络的文档。也可以使用其他的实现方式。
词语料库204包括来自各种源的词。示例性词语料库可以包括网络文档,诸如网页和网络文件、查询日志、博客、电子邮件消息或包括词数据的其他数据。在所描述的示例中,词预料库204可以包括来自网络文档214、电子通信216、数据存储单元218和其他词源220的汉字字符。网络文档214可以包括通过WAN 202可访问的已发布的网页。例如,词语料库204可以包括来自个人或公司网站的词、在社交网络网站中的简档页面、博客条目、在线新闻文章和/或在因特网上发布的其他文本。电子通信216可以包括网络通信,诸如电子邮件、短消息服务(SMS)、搜索查询、或其他通信方法。例如,词语料库204可以包括在电子邮件消息、SMS消息和搜索查询中使用的文本。在一些实现方式中,词语料库204还可以包括来自其他数据存储单元218的词,诸如与其他IME设备相关联的在线词典、用户文件等。在一些示例中,词语料库204还可以包括在其他词源220中使用的词,诸如在电子书籍、电子词典、电子形式的各种设备的用户手册、或词数据的任何其他电子源中使用的词。
在一些实现方式中,词语料库204可以包括一种或多种语言的文档中的词。例如,语料库204中的单个文档可以包括多于一种语言(例如,中文报纸中关于英国政治的社论可以包括中文和英文两者)。在一些实现方式中,词处理模块206可以从用于词检测的词语料库204中提取特定语言的字符,例如汉字字符。
在一些实现方式中,词处理模块206可以包括汉字字符处理模块。在一个示例中,汉字字符处理模块可以处理词语料库204中的汉字字符。在一些示例中,词处理模块206可以包括用于处理其他词符语言的处理模块,诸如日语字符处理模块、韩语字符处理模块和/或其他词符字符处理模块。
在一些实现方式中,词检测系统200包括划分(partition)数据存储单元212。划分数据存储单元212可以包括词语料库204的副本或者词语料库的一大部分的副本,例如由软件代理爬取的网页的副本,并且词处理模块206可以对存储在划分数据存储单元212中的数据进行划分。例如,词处理模块206可以将与词语料库204相关的数据划分为训练语料库和发展语料库。在一些实现方式中,可以将训练语料库和发展语料库中的数据存储在划分数据存储单元212中。在一些实现方式中,可以生成多于两个划分,并且可以将它们存储在划分数据存储单元212中。
在一些实现方式中,词处理模块206可以根据划分数据存储单元212中的划分数据识别词语料库204中的文档并且存储文档标识符,例如统一资源定位符(URL)。在这些实现方式中,划分数据存储单元212不需要包括词语料库204的副本或词语料库204的一大部分的副本。也可以使用用于管理词语料库204的其他数据存储和/或分配技术。
词处理模块206可以包括语言模型。例如,词处理模块206可以利用词语料库204中的数据来生成n元语言模型。n元语言模型可以包括来自给定序列的n个词的子序列的概率。n元语言模型可以包括n=1的一元语言模型、n=2的二元语言模型、和/或n=3的三元语言模型或其他n元模型。在某些实现方式中,词处理模块206可以为划分数据存储单元212中的一个或多个划分数据集合(例如训练语料库)生成n元语言模型。
在一些实现方式中,词处理模块206可以识别词语料库204中的词而无需分隔符。例如,词处理模块206可以使用词典124和一个或多个现有语言模型来识别词语料库204中的词。在一个示例中,对于词语料库204中的给定句子,词处理模块206能够识别形成该句子的词的一个或多个组合。基于语言模型,词处理模块206能够例如对所述组合进行排序,并且选择具有最高排序的词的组合。
词处理模块206可以将训练语料库中的词和词典124中的词进行比较,以识别一个或多个潜在的新词,例如出现在训练语料库中但是不在词典124中的候选词。在一些示例中,系统200可以使用划分数据存储单元212中的数据验证候选词是否是新词。词处理模块206基于例如训练语料库(例如训练语料库)中的n元语言模型确定候选词的第一概率和构成候选词的词的概率,以及基于例如候选词在发展语料库中的出现次数以及发展语料库中的词的总数量确定第二概率。
使用第一和第二概率,新词分析器模块208能够确定候选词是否是新词。在一个示例中,新词分析器模块208可以使用第一和第二概率来确定发展语料库中的不确定性(例如熵值)是否相对于该候选词降低。在一些实现方式中,新词分析器模块208基于第一和第二概率生成第一和第二熵相关值。例如,第一熵相关值和第二熵相关值可以分别表示具有和不具有该候选词的语言模型的不确定性。在一些实现方式中,如果第一熵相关值小于第二熵相关值,则新词分析器模块208确定该候选词是新词。熵的减少可以指示由于正确检测新词导致的信息增益(information gain,IG)。
如果确定候选词是新词,则新词分析器模块208可以通知词典更新器模块210利用新词更新词典124。
在一些实现方式中,熵相关值可以是实际熵值的近似值。例如,在训练语料库和发展语料库中的词的数量可能由于将候选词包括在语言模型中而稍有变化,例如,可以将词“全球”计数为一个词,或者如果分别考虑构成字符“全”和“球”,可以将词“全球”计数为两个词。
在一个实现方式中,新词分析器模块208可以例如通过仅调整候选词和定义该候选词的构成词的概率,使用固定大小的训练语料库和发展语料库生成熵相关值。因此熵相关值是实际熵值的接近近似值。新词分析器模块208可以使用熵相关值作为训练语料库和/或发展语料库的熵值。
图2B是图2A的系统200的示例实现方式的框图。如图2B中所示,系统200包括训练语料库232和发展语料库234。在一些实现方式中,词处理模块206划分词语料库204,以生成训练语料库232和发展语料库234。例如,可以将训练语料库232和发展语料库234存储或表示在划分数据存储单元212中。
在一些实现方式中,词处理模块206可以包括分割模块,其将词之间没有空格的原始句子分割成词序列。词处理模块中的分割模块可以例如利用词典和语言模型来生成词序列的分割。
如上所述,词处理模块206可以包括训练语料库232中的n元语言模型。在一些实现方式中,词处理模块206可以通过将训练语料库232中的两个或更多个现有词进行组合来识别候选词。例如,词处理模块206可以通过组合两个现有词x和y来识别候选词(x,y)。
在一些实现方式中,系统200可以利用来自词语料库204的词数据,例如训练语料库232和发展语料库234中的网页数据,来确定候选词是否是新词。例如,词处理模块206可以从存储在训练语料库232中的数据生成n元语言模型,以包括所识别的候选词(x,y)。一元模型可以包括候选词的概率P(x,y),并且词处理模块206还可以确定构成候选词xy的词x和y的相应概率P(x)和P(y)。此外,词处理模块206从发展语料库234生成候选词的词计数值D(x,y)和构成词的词计数值D(x)和D(y)。例如,D(x)、D(y)和D(x,y)分别可以是x、y和(x,y)在发展语料库234中的出现次数。使用词计数值,系统200能够确定x、y和(x,y)在发展语料库234中的概率。例如,(x,y)在发展语料库234中的概率可以被确定为:
D ( x , y ) | | D | | ,
其中‖D‖是发展语料库234中的词的总数量。
在接收到概率p(x)、p(y)和p(x,y)以及词计数值D(x)、D(y)和D(x,y)之后,新词分析器模块208确定该候选词是否是新词。在一些实现方式中,如果发展语料库234的不确定性由于将候选词包括为新词而降低,则新词分析器模块208可以确定该候选词是新词。在一些示例中,可以使用熵值来测量发展语料库234中的不确定性。例如,可以通过下式来确定发展语料库234的熵值:
H = - Σ w ∈ V D ( w ) | | D | | · log p ( w )
其中V是计算熵H所考虑的词的整个集合,w是发展语料库234中的词,p(w)是发展语料库中的该词的概率,并且D(w)是w在发展语料库中的出现次数。
在一些实现方式中,新词分析器模块208可以为发展语料库234生成熵值H和H’,其中H和H’分别是在语言模型中不包括和包括该候选词的情况下发展语料库234的熵值。在一些实现方式中,新词分析器模块208分别使用在不具有和具有该候选词的情况下语料库的实际大小来生成实际熵值H和H’。在一些实现方式中,新词分析器模块208还可以使用可以近似实际熵值的一个或多个熵相关值。例如,新词分析器模块208可以使用在不具有候选词的情况下语料库232、234的大小生成H’。尽管在将(x,y)作为新词包括在词汇中之后训练语料库232和发展语料库234的大小可能减小,但是该差别对于在具有候选词(x,y)的情况下计算语料库232、234的熵而言是可忽略的。例如,如果将n个构成词W1W2...Wn的序列看作是潜在的新词,则语料库的大小仅减少了W1W2...Wn的出现次数,例如m,乘以n-1,例如m*(n-1)那么多。
通过比较H和H’,新词分析器模块208可以确定候选词是否是新词。例如,如果H’-H<0,则新词分析器模块208可以确定该候选词是新词,因为发展语料库234的熵值由于包括该候选词而降低。
在一些示例中,新词分析器模块208使用概率p(x)、p(y)和p(x,y)以及词计数值D(x)、D(y)和D(x,y)比较熵值H和H’。因为除了候选词和构成词之外的词的词频率不受添加候选词的影响,所以可以使用简化公式生成用于生成H和H’之间的差的公式。通过删去相等项,可以导出下面的公式用来计算H和H’之间的差:
Z = H ′ - H = - [ D ( x , y ) | | D | | · log p ′ ( x , y ) + D ( x ) - D ( x , y ) | | D | | · log p ′ ( x ) + D ( y ) - D ( x , y ) | | D | | · log p ′ ( y ) ]
+ [ D ( x ) | | D | | · log p ( x ) + D ( y ) | | D | | · log p ( y ) ]
其中p’(x)、p’(y)、p’(x,y)、p(x)和p(y)是训练语料库232的语言模型的概率。p’(x)、p’(y)、p’(x,y)的值分别是在认为字符序列xy是候选词时x、y和(x,y)在语言模型中的概率。相反,p(x)和p(y)的值分别是在认为字符序列xy不是候选词时x和y在语言模型中的概率。因此,由于序列xy的每次出现增加了相应的概率p(x)和p(y),所以值p(x)>p’(x)并且值p(y)>p’(y)。
在实现方式中,如果Z<0,这等效于以下条件,则新词分析器模块208可以确定候选词(x,y)是新词:
D ( x , y ) | | D | | · log p ′ ( x , y ) p ′ ( x ) · p ′ ( y ) > D ( x ) | | D | | · log p ( x ) p ′ ( x ) + D ( y ) | | D | | · log p ( y ) p ′ ( y )
因此,如果上述不等式为真,则确定候选词(x,y)是新词。
在一些实现方式中,使用x、y、和(x,y)在训练语料库232中的出现次数除以训练语料库232中词的总数量来表示概率p(x),p(y),p’(x)和p’(y)。例如,
p ′ ( x ) = T ( x ) - T ( x , y ) | | T | | = p ( x ) - p ( x , y ) ,
p ′ ( y ) = T ( y ) - T ( x , y ) | | T | | = p ( y ) - p ( x , y ) ,
p ( x ) = T ( x ) | | T | | , 以及
p ( y ) = T ( y ) | | T | | ,
其中T(x)、T(y)和T(x,y)分别是在训练语料库232中x、y和(x,y)的出现次数,并且‖T‖是训练语料库232中词的总数量。因而,新词分析器模块208可以根据下面的不等式评估上面的不等式:
D ( x , y ) | | D | | · log p ′ ( x , y ) p ′ ( x ) · p ′ ( y ) > D ( x ) | | D | | · log p ( x ) p ( x ) - p ( x , y ) + D ( y ) | | D | | · log p ( y ) p ( y ) - p ( x , y )
可以将该不等式重写为:
D ( x , y ) | | D | | · log p ′ ( x , y ) p ′ ( x ) · p ′ ( y ) > D ( x ) | | D | | · log T ( x ) T ( x ) - T ( x , y ) + D ( y ) | | D | | · log T ( y ) T ( y ) - T ( x , y )
以确定候选词是否有效。
在一种实现方式中,新词分析器模块208可以使用在发展语料库234中候选词的词频率(例如
Figure GPA00001109426800137
)、以及在训练语料库232中候选词和构成词的词频率(例如p(x)、p(y)和p(x,y))来生成第一值。可以基于以下公式计算基于这些值的第一类熵值V1:
V 1 = D ( x , y ) | | D | | · log p ( x , y ) p ( x ) · p ( y )
类似地,新词分析器模块208可以使用在发展语料库234中构成词的词频率(例如,
Figure GPA00001109426800139
)、以及在训练语料库232中候选词和构成词的词频率来生成第二熵值。可以基于以下公式计算基于这些值的第二类熵值Vs:
V 2 = D ( x ) | | D | | · log p ( x ) p ( x ) - ( x , y ) + D ( y ) | | D | | · log p ( y ) p ( y ) - p ( x , y )
在一些实现方式中,如果V1>V2,则新词分析器模块208确定候选词是新词。也可以使用其它不等式来更多或更少地包括新词,例如V1>S*V2,其中S是标量值。标量值可以是固定的,例如为0.9,或可以根据应用进行调整。
词典更新器模块210从新词分析器模块208接收指示所述确定的数据。在一些实现方式中,如果新词分析器模块208确定候选词是新词,则词典更新器模块210可以将该新词添加到词典124中。
系统200可以按照预定的安排处理词语料库204和处理多个候选词。例如,可以以每日、每周或每月为基础实现检测语料库中的新词的过程。也可以使用其它的触发事件;例如,如果接收未被识别的词作为输入的频率足够高以致具有统计意义,则可以对基于网络的输入法编辑器执行新词检测过程。
图3是用于识别词语料库(例如词语料库204)中的新词的示例过程300的流程图。例如可以在包括一个或多个计算机的系统中实现过程300。例如,词检测系统200可被用来执行过程300中的一些或所有操作。
过程300以确定训练语料库中的现有词和候选词的第一词频率开始(302)。候选词可以由构成词的序列定义,并且每个构成词可以是词典中的现有词。例如,词处理模块206可以确定在训练语料库232中候选词(例如(x,y))和构成该候选词的现有词(例如x和y)的概率(例如p(x)、p(y)和p(x,y))。在一些实现方式中,词处理模块206可以生成训练语料库232中的n元语言模型以用于确定词频率。
接下来,过程300确定发展语料库中构成词和候选词的第二词频率(304)。例如,词处理模块206可以确定在发展语料库234中所识别的新词和构成词的词计数值(例如D(x,y)、D(x)和D(y))。在一些实现方式中,可以通过将发展语料库234中的一个词的词计数除以发展语料库234中词的总数量来确定在发展语料库234中所述词的词频率。例如,词处理模块206可以通过计算来确定在发展语料库中w的词频率。
在确定词频率之后,过程300基于候选词的第二词频率以及构成词和候选词的第一词频率确定候选词熵相关量度(306)。例如,新词分析器模块208可以使用D(x,y)、p(x)、p(y)和p(x,y)确定候选词熵相关量度V1。
过程300基于构成词的第二词频率以及构成词和候选词的第一词频率确定现有词熵相关量度(308)。例如,新词分析器模块208可以使用D(x)、D(y)、p(x)、p(y)和p(x,y)确定现有词熵相关量度V2。
接下来,过程300确定候选词熵相关量度是否超过现有词熵相关量度(310)。例如,新词分析器模块208可以比较V1和V2,并且确定V1是否大于V2。
如果过程300确定候选词熵相关量度超过现有词熵相关量度,则确定候选词是新词(312)。例如,如果V1>V2,则新词分析器模块208可以确定候选词是新词。
如果过程300确定候选词熵相关量度未超过现有词熵相关量度,则确定候选词不是新词(314)。例如,如果V1≤V2,则新词分析器模块208可以确定候选词不是新词。
在一些实现方式中,如参考图2A-2B描述的,通过计算熵量度或通过使用固定大小的语料库近似熵量度来确定熵相关量度。
图4是用于确定候选词和现有词的熵相关量度的示例过程400的流程图。例如可以将过程400实现在包括一个或多个计算机的系统中。例如,词检测系统200可被用来执行过程400中的一些或所有操作。
过程400以基于候选词和构成词的概率确定第一对数值开始(402)。例如,新词分析器模块208可以使用p(x)、p(y)和p(x,y)确定第一对数值。在一个示例中,第一对数值可以是
log p ( x , y ) p ( x ) · p ( y )
接下来,过程400基于候选词的词计数值和第一对数值确定候选词熵量度(404)。例如,新词分析器模块208可以使用候选词的词计数D(x,y)和第一对数值来生成值V1。
过程400基于候选词和构成词的概率确定第二对数值(406)。例如,新词分析器模块208可以使用p(x)、p(y)和p(x,y)确定第二对数值。例如,第二对数值可以包括
log p ( x ) p ( x ) - p ( x , y ) log p ( y ) p ( y ) - p ( x , y )
接下来,过程400基于构成词的词计数和第二对数值确定现有词熵量度(408)。例如,新词分析器模块208可以使用候选词的词计数D(x)、D(y)和第二对数值来生成值V2。
图5是用于识别词语料库中的新词的另一示例过程500的流程图。例如,可以将过程实现在系统200中。过程500以确定第一语料库中现有词和候选词的第一词概率开始(502)。例如,词处理模块206可以确定在训练语料库232中的p(x)、p(y)和p(x,y)。
过程500确定第二语料库中构成词和候选词的第二词概率(504)。候选词可以由构成词的序列来定义,并且每个构成词可以是词典中的现有词。例如,词处理模块206可以确定在发展语料库234中构成词x和y、以及候选词(x,y)的概率。例如,词处理模块206可以使用在发展语料库234中的D(x)、D(y)和D(x,y)、以及‖D‖来确定在发展语料库234中x、y和(x,y)的概率。
接下来,过程500基于第二候选词概率以及候选词和构成词的第一词概率确定第一熵相关值(506)。例如,新词分析器模块208可以使用D(x,y)以及p(x)、p(y)和p(x,y)确定V1。
过程500基于第二构成词概率以及候选词和构成词的第一词概率确定第二熵相关值(508)。例如,新词分析器模块208可以使用D(x)、D(y)以及p(x)、p(y)和p(x,y)确定V2。
在确定熵相关值之后,过程500确定第一熵相关值是否超过第二熵相关值(510)。例如,新词分析器模块208可以确定是否V1>V2。
如果过程500确定第一熵相关值V1超过第二熵相关值V2,则确定候选词是新词(512)。例如,如果V1>V2,则新词分析器模块208可以确定候选词是新词。
如果过程500确定第一熵相关值未超过第二熵相关值,则确定候选词不是新词(514)。例如,如果V1≤V2,则新词分析器模块208可以确定候选词不是新词。
图6是用于基于来自一个词语料库的词概率识别在另一词语料库中的新词的另一示例过程600的流程图。例如,可以将过程600实现在包括一个或多个计算机的系统中。
过程600以将网络文档的集合划分成训练语料库和发展语料库开始(602)。例如,词处理模块206可以将词语料库204划分成训练语料库232和发展语料库234。
接下来,过程600针对训练语料库中的词的第一词概率在训练语料库上训练语言模型(604)。例如,词训练模块206可以训练训练语料库232的n元语言模型,并且获得训练语料库232中的词概率(例如p(x)、p(y)和p(x,y))。
过程600对候选词和两个或更多个相应词在发展语料库中的出现次数计数(606)。例如,词处理模块206可以对候选词在发展语料库234中的出现次数(D(x,y))计数,并对候选词的构成词在发展语料库234中的出现次数(D(x)和D(y))计数。
接下来,过程600基于在发展语料库中候选词的出现次数和第一词概率确定第一值(608)。例如,新词分析器模块208基于D(x,y)以及p(x)、p(y)和p(x,y)确定V1。
过程600基于所述两个或更多个相应词在发展语料库中的出现次数和第一词概率确定第二值(610)。例如,新词分析器模块208基于D(x)和D(y)以及p(x)、p(y)和p(x,y)确定V2。
在确定第一和第二值之后,过程600通过将第一值与第二值比较来确定候选词是否是新词(612)。例如,新词分析器模块208可以比较V1和V2。如果过程600确定候选词是新词,则过程600将候选词添加到词典(614)。例如,词典更新器模块210可以将新词添加到词典124。如果过程600确定候选词是不新词,则过程600识别另一候选词(616)并且重复步骤606。例如,词处理模块206可以从词语料库204识别另一候选词。
尽管上面参考两个现有词描述了检测新词的示例,但是词检测系统200可以检测由多于两个现有词构成的新词。例如,词检测系统200可以识别由三个现有词x、y和z构成的候选词(x,y,z)。新词分析器模块208可以通过以下计算来生成第一熵相关值V1:
V 1 = D ( x , y , z ) | | D | | · log p ( x , y , z ) p ( x ) · p ( y ) · p ( z )
以及通过以下计算生成第二熵相关值V2:
V 2 = D ( x ) | | D | | · log p ( x ) p ( x ) - p ( x , y , z ) + D ( y ) | | D | | · log p ( y ) p ( y ) - p ( x , y , z )
+ D ( z ) | | D | | · log p ( z ) p ( z ) - p ( x , y , z )
如果V1>V2,则新词分析器模块208可以确定候选词(x,y,z)是新词,并且词典更新器模块210可以将该新词存储在词典124中。例如,系统200可以识别已经引入到语言词汇中的下列新的三字符或四字符词/短语:“丁俊晖”(dingjunhui)、“本赛季”(this season)、“世锦赛”(world championship)、“季后赛”(play off)、“范甘迪”(Van Cundy)、“国际足联”(FIFA)、“反倾销”(antidumping of low-priced)、“净利润”(net profit)、“证监会”(SEC)、“国资委”(china federal estate committee)、“美联储”(FED)和“非流通股”(Non-tradableshares)。
在一些实现方式中,计算机系统可以包括与一个或多个特定主题相关的一个或多个主题词典。例如,图1B中的词典124可以包括一个或多个主题词典,并且每个主题词典可以对应于特定主题,并且包括与该特定主题相关的主题词。特定主题的示例可以包括体育主题、音乐主题、法律主题、医学主题等。与体育主题相关的主题词典例如可以包括与体育相关的词和短语,例如“足球”、“橄榄球”、“球门”、“红牌”等。这些词中的一些词可以是语言词典中的现有词,例如“足球”;而这些词中的一些词也可以是新词,例如新球员的名字、新比赛场地的名称等。
在一些实现方式中,可以从新词和/或现有词中识别主题词。在一个示例中,在使用系统200识别新词之后,可以将新词中的一个或多个分类为与特定主题相关。在一些实现方式中,主题词识别系统可以从词语料库204中识别主题词。可以将所识别的主题词包括在一个或多个主题词典中。
图7A是用于识别主题词的示例主题词识别系统700的框图。主题词识别系统700包括主题分类模块702、主题词处理模块704、词典更新器模块706和主题词典708。可以将主题分类模块702、主题词处理模块704和词典更新器模块706集成在一个或多个计算机中,例如单个计算机或通过诸如WAN 202的网络进行通信的一个或多个计算机。类似地,通过WAN 202,主题分类模块702可以检索词语料库204(例如文档语料库710)中的文档。在一些示例中,主题词识别系统700可以识别词语料库204中的主题词,并且将所识别的主题词更新到主题词典708中。
文档语料库710可以包括来自词语料库204的文档,例如文档语料库710可以包括词语料库204的副本或词语料库204的一大部分,例如由软件代理爬取的网页的副本。在该示例中,文档语料库710包括n个主题714,并且每个主题包括来自例如文档语料库710的主题相关文档,例如主题文档语料库。例如,文档语料库710可以包括体育相关文档、医学相关文档等,并且体育主题可以包括体育相关文档作为体育主题文档语料库;医学主题可以包括医学相关文档作为医学主题文档语料库等。在一些实现方式中,可以在系统700中预先定义每个主题714。此外,一些主题也可以是另一主题的子主题。例如,主题“网球”和“篮球”可以是主题“体育”的子主题。
在一些实现方式中,主题分类模块702对文档语料库710中的文档聚类(cluster),以生成主题文档聚类(cluster)。例如,主题分类模块702可以聚类与一个主题714相关的文档,以形成该主题的主题文档聚类。主题分类模块702可以使用不同的主题检测方法来对文档分类。例如,主题分类模块702可以使用一些聚类技术(例如奇异值分解(SVD)、K均值聚类等),以从文档语料库710中的文档生成主题文档的聚类。在示例中,主题分类模块702可以向每个文档分配相关值。在一个实现方式中,相关值可以是文档的相似度值和每个主题714的重心(centroid)。基于相关值,主题分类模块702将文档分配给最相关的主题。基于文档分配,主题分类模块702可以为每个主题714生成主题文档聚类。
系统700可以包括新词数据存储单元712。在一些实现方式中,新词数据存储单元712包括从词语料库204识别的新词。例如,新词数据存储单元712可以存储使用系统200识别的新词。
主题词处理模块704可以选择存储在新词数据存储单元712中的所识别的新词和/或在文档语料库710中识别出的、作为每个主题文档聚类的候选主题词的现有词,并且确定所选择的候选词是否属于某一主题。如果确定所选择的候选主题词属于特定主题,则可以用该候选主题词更新相应的主题词典708。
在一个实现方式中,主题词处理模块704可以使用新词数据存储单元712和主题词典708选择候选词。主题词处理模块704可以将相应主题文档中的每个词识别为新词、主题词或非主题词。例如,新词可以是包括在新词数据存储单元712中的词,所述新词数据存储单元712可以不包括在任何主题词典708中;主题词可以是存在于相关主题词典中的词;以及非主题词可以是不存在于相关主题词典中的现有词。主题词处理模块704可以选择新词和非主题词作为候选主题词。
基于主题文档聚类和存储在主题词典708中的数据,主题词处理模块704可以确定候选主题词是否是主题词典708之一的主题词。例如,如果主题词处理模块704确定候选主题词We(其是文档语料库710中的现有词)与主题2相关联,则主题词处理模块704可以通知词典更新器模块706将候选主题词We存储在主题2词典中。类似地,如果主题词处理模块704确定候选主题词Wn(其是新词)与主题n相关联,则主题词处理模块704可以通知词典更新器模块706将候选主题词Wn存储在主题n词典中。
图7B是图7A的系统700的示例实现方式的更详细的框图。如图7B中所示,主题分类模块702包括聚类模块722、重心模块724和相似度模块726。主题分类模块702可以使用模块722、724和726来在文档语料库710中生成主题文档聚类。
主题词处理模块704包括散度值模块732和阈值评估模块734。主题词处理模块704可以从文档语料库710中所生成的主题文档聚类和/或从新词数据存储单元712识别候选主题词,并且利用模块732和734来确定候选主题词是否是主题词。
在一些实现方式中,主题分类模块702可以为文档语料库710中的每个文档生成词频/反文档频率(TF-IDF)矢量。例如,聚类模块722可以根据下列公式确定文档j中的词wi的TF-IDF一元频率mij
m ij = f j ( w i ) · log D D w i
其中D和Dwi分别是文档的总数量和包含wi的文档的数量,并且fj(wi)是文档j中wi的频率。使用文档j中的词的TF-IDF频率,聚类模块722能够通过生成TF-IDF矢量Xj来表示文档j。例如,可以将文档j表示为:
Xj=[m1j m2j...m|V|j]T
其中|V|是系统700中所识别的词的数量。在一些实现方式中,聚类模块722可以使用文档矢量mij来生成共生矩阵(co-occurrence matrix)M。
类似地,主题分类模块702可以使用例如与主题的文档的TF-IDF矢量相关的重心矢量来表示每个主题。例如,重心模块724可以确定主题重心Y1,Y2,...,Yn以分别表示主题1,2,...,n。在一些实现方式中,重心模块724可以通过组合分配给主题的文档的TF-IDF矢量来确定主题重心。在一个实现方式中,重心模块724可以根据下列公式确定主题k(Tk)的主题重心Yk
Y k = Σ X i ∈ T k X i
在一些实现方式中,相似度模块726可以确定在文档Xj和重心Y1,Y1,...Yn之间的相似度距离,例如余弦相似度距离。可以根据下列公式确定在文档X和主题重心Y之间的距离D(X,Y):
D ( X , Y ) = 1 - X · Y + ϵ Σ x i > 0 x i + ϵ Σ y i > 0 y i + ϵ 2 ( | | X | | + ϵ ) · ( | | Y | | + ϵ )
其中xi是在TF-IDF矢量X中的分量,yi是在TF-IDF矢量Y中的分量,以及ε是小于1的小正实数。
基于文档和每个重心之间的距离,聚类模块722可以通过将文档分配给到文档最近的主题来将文档重新聚类到文档聚类中。例如,聚类模块722将文档和主题重心之间的距离进行比较,以确定最近的主题重心。
主题分类模块702可以迭代地对主题文档分类。最初,主题分类模块702可以生成n个初始聚类和聚类的n个初始聚类重心。在一个示例中,聚类模块722可以对共生矩阵M执行奇异值分解(SVD),以识别初始文档聚类。例如,可以将每个文档分配给表示为C0(Xi)的初始聚类中的一个。在其他实现方式中,也可以通过随机地将文档分配给主题来生成初始聚类。基于初始文档聚类,重心模块724可以通过如下计算来生成初始重心:
Figure GPA00001109426800211
对于j=1,2,3,...,n
使用初始重心,相似度模块726可以生成在每个重心和每个文档之间的相似度距离D(X,Y)。
在初始化之后,聚类模块722可以在每次迭代中基于当前最近的主题重心来重新分配文档。在一个示例中,如果在当前迭代中D(X14,Y2)在所有D(X14,Yj),j=1,2,...,n中是最小的,则聚类模块722可以将文档14分配给主题2。在重新分配文档后,重心模块724基于新的分配更新主题的重心。例如,在步骤n中,重心模块724可以通过如下计算来计算新的重心:
Figure GPA00001109426800212
对于j=1,2,3,...,n
使用更新的重心,相似度模块726可以确定文档和更新的重心之间的新的相似度距离。然后,可以使用所确定的距离来在下一次迭代中重新分配文档。例如,主题分类模块702可以重复地执行将文档分配给聚类、更新主题重心和计算更新的重心和文档之间的距离的操作,直到主题文档聚类收敛。例如,在当前的迭代中(例如在迭代n中),聚类模块722可以使用在先前的步骤中(例如在迭代n-1中)计算的距离来将文档分配给主题。在一个示例中,聚类模块722可以使用下列公式将Xi重新分配给聚类Cn(Xi)(例如在第n个步骤中Xi分配的聚类)
C n ( X i ) = arg min j = 1 n D ( X i , Y j n - 1 )
主题分类模块702可以重复所述操作,直到重心的位置收敛。在一个示例中,如果满足以下条件,则主题分类模块702可以确定重心Yj的位置收敛:
| | Y j n - Y j n - 1 | | < L
其中L是正的实数。
在另一个实现方式中,可以根据人工注释,例如与主题识别相关的注释或元数据,将文档分配给初始聚类。在另一个实现方式中,可以使用主题关键词列表来播种每个主题聚类,以识别文档和主题聚类。也可以使用其他聚类技术。
在生成主题文档聚类后,主题词处理模块704选择文档聚类中的候选主题词。例如,主题词处理模块704可以从每个主题文档聚类中识别一个或多个非主题词和新词作为候选主题词。
散度值模块732确定主题中的词的词散度值。在一些实现方式中,主题词分类模块704可以为所选择的主题和主题词确定主题词散度值。例如,主题词处理模块704可以从所选择的主题的主题词典中选择主题词。在某些实现方式中,散度值模块732可以基于在文档语料库710中和在属于所选择的主题的主题文档聚类的文档中的主题词分布,确定主题词散度值。例如,主题词散度值可以基本上与一比值成比例,该比值是在一个主题的主题文档中主题词的概率分布与针对在文档语料库710中所有文档该主题词的概率分布的比值。在一个示例中,可以通过下式来确定主题词w的主题词散度值Q:
Q = P d ( w ) P ( w ) &CenterDot; log P d ( w )
其中Pd(w)是在文档语料库710中与主题d相关的文档中所选择的主题词w的概率,并且P(w)是在文档语料库710中的所有文档中的所选择主题词的概率。
阈值评估模块734可以基于一个或多个主题词散度值确定主题散度值。在一些实现方式中,阈值评估模块734可以基于主题词散度值的集中趋势确定主题散度值。例如,阈值评估模块734可以计算主题词散度值的平均值,并且使用该平均值作为主题散度值。也可以使用基于主题词散度值的其他值。例如,阈值评估模块734可以通过比较所确定的主题词散度值和选择最大的主题词散度值作为主题散度值,来确定主题散度值。
在一些实现方式中,阈值评估模块734可以调节(scale)主题散度值。例如,阈值评估模块734可以根据以下公式来调节主题散度值
T=(1+t)·S
其中T是调节后的主题散度值,t是实数,并且S是主题散度值。
类似地,散度值模块732可以确定候选主题词的候选词散度值。主题的候选主题词是现有词或新词,所述现有词或新词不是用于该主题的主题词典中的主题词。候选词散度值可以是基于在文档语料库710中和在属于所选择的主题的主题文档聚类的文档中候选主题词的概率分布。在一个示例中,可以通过下式来确定候选主题词wc的候选主题词散度值R
R = P d ( w c ) P ( w c ) &CenterDot; log P d ( w c )
其中Pd(wc)是在文档语料库710中与主题d相关的文档中候选主题词wc的概率,并且P(wc)是在文档语料库710中的所有文档中候选主题词的概率。
主题词处理模块704可以基于主题散度值和候选词散度值来确定候选主题词是否是主题词。例如,可以将候选散度值与主题散度值进行比较,以确定候选主题词是否是主题词。在实现方式中,如果R>S,即:
P d ( w c ) P ( w c ) &CenterDot; log P d ( w c ) > S ,
其中S是主题散度值,则阈值评估模块734确定候选主题词wc是主题词。
可替代地,可以将调节后的值T与候选词散度值R进行比较,其中T=(1+t)*S。在另一实现方式中,可以根据相应主题的特性(specificity)进一步调节T的值。例如,对于非常一般的主题,例如“体育”主题,可以将T的值调节到比S小许多的幅度,从而使主题词的确定具有较强的包含性。相反,对于非常特定的主题,例如“小波数学”,可以将T的值调节到与S基本相等或大于S的幅度,从而使主题词的确定具有较弱的包含性。也可以使用其他调节技术。
如果确定候选主题词是主题的主题词,则词典更新器模块706更新该主题的主题词典708,使其包括候选主题词。例如,如果阈值评估模块734确定作为现有词的候选主题词We是例如主题2的主题词,则主题词处理模块704可以通知词典更新器模块706将候选主题词We存储在主题2词典中。类似地,如果阈值评估模块734确定作为新词的候选主题词Wn是例如主题n的主题词,则主题词处理模块704可以通知词典更新器模块706将候选主题词Wn存储在主题n词典中。
也可以使用与散度值相关的其它函数。例如,可以使用一对单调函数f(x)和g(x)来确定散度值Q,例如,
Q = f [ P d ( w ) P ( w ) ] &CenterDot; g [ P d ( w ) ]
在上述示例实现方式中,f(x)=x并且g(x)=log(x)。然而,也可以使用其他的单调函数。
图8是用于识别主题词的示例过程800的流程图。可以将过程800实现在包括实现图7A和7B的系统700的一个或多个计算机的系统中。在一些示例中,主题词处理模块704可以从词语料库204中识别候选主题词,并且使用过程800来确定候选主题词是否是新主题词。
过程800确定主题散度值(802)。例如,散度值模块732可以基于所选择的主题的一个或多个主题词散度值来确定主题的主题散度值。在一些实现方式中,主题散度值可以基本上与一比值成比例,所述比值是在主题文档语料库中的第一主题词分布(例如在主题文档语料库中主题词的分布)与在文档语料库中的第二主题词分布(例如在文档语料库710中主题词的分布)的比值。主题文档语料库可以是与主题相关的主题文档的语料库,例如在文档语料库710中的文档的子集,并且文档语料库可以是包括主题文档和其他文档的文档的语料库,例如文档语料库710。
接下来,过程800确定候选主题词的候选主题词散度值(804)。在一些实现方式中,候选主题词散度值可以基本与一比值成比例,所述比值是在主题文档语料库中候选主题词的第一分布与在文档语料库中候选主题词的第二分布的比值。例如,散度值模块732可以通过计算下式来确定候选主题词散度R:
R = P d ( w c ) P ( w c ) &CenterDot; log P d ( w c )
其中wc是候选主题词,Pd(wc)是在主题文档语料库中候选主题词w的概率,并且P(wc)是在文档语料库710中候选主题词的概率。
在确定主题散度值和候选词散度值之后,过程800确定候选主题词散度值是否大于主题散度值(806)。例如,主题词处理模块704可以将候选词散度值与主题散度值进行比较。
如果候选主题词散度值大于主题散度值,则过程800将候选主题词识别为新主题词(808)。例如,如果候选主题词散度值大于主题散度值,则主题词处理模块704可以确定候选主题词是新主题词。
如果候选主题词散度值不大于主题散度值,则过程800不将候选主题词识别为新主题词(810)。例如,如果候选主题词散度值不大于主题散度值,则主题词处理模块704可以确定候选主题词不是新主题词。
图9是用于确定主题词散度值的示例过程900的流程图。可以将过程900实现在包括实现图7A和7B的系统700的一个或多个计算机的系统中。在一些实现方式中,散度值模块732可以使用过程900来确定主题散度值。
过程900选择主题词(902)。例如,散度值模块732可以从主题714之一中选择一个或多个主题词。
接下来,过程900确定每个主题词的主题词散度值(904)。例如,每个主题词散度值基本上与一比值成比例,该比值是在主题文档语料库中每个主题词的第一分布和在文档语料库中每个主题词的第二分布的比值。在一个示例中,散度值模块732可以通过计算下式来确定每个所选主题词(w)的主题词散度值:
Q = P d ( w ) P ( w ) &CenterDot; log P d ( w )
其中Pd(w)是在主题d中所选择的主题词w的概率,并且P(w)是在文档语料库中所选择的主题词的概率。
在确定主题词散度值之后,过程900基于主题词散度值的集中趋势确定主题散度值(906)。例如,散度值模块732可以通过确定主题词散度值的平均值来确定主题散度值。
图10是示例文档和词聚类过程1000的流程图。可以将过程1000实现在包括实现图7A和7B的系统700的一个或多个计算机的系统中。
过程1000识别文档语料库中与主题相关的文档(1002)。例如,主题分类模块702可以基于文档的TF-IDF矢量和主题的重心矢量之间的距离,识别文档语料库710中与主题714之一相关的文档。在一个示例中,主题分类模块702可以使用参考图7B描述的迭代过程来识别文档。
过程1000生成与主题相关的文档聚类(1004)。基于所识别的在文档和主题之间的关系,主题分类模块702可以通过将与主题相关的文档包括在文档聚类中,来生成每个主题的文档聚类。
接下来,过程1000识别每个文档聚类中的词(1006)。例如,主题词处理模块704可以使用主题词典708和/或新词数据存储单元712来识别每个主题文档聚类中的主题词、非主题词和/或新词。
过程1000从每个文档聚类中的所识别的词选择候选主题词(1008)。例如,主题词处理模块704可以从文档语料库710中的所识别的主题文档聚类选择候选主题词。
图11是用于识别主题词的另一示例过程的流程图。可以将过程1100实现在包括实现图7A和7B的系统700的一个或多个计算机的系统中。在一些实现方式中,主题分类模块704可以使用过程1100中的一些或所有操作来识别新主题词。
过程1100选择包括与主题相关的主题词的主题词典(1102)。例如,主题分类模块704可以选择与所选择的主题(例如,主题1、主题2、...、或主题n)相关的主题词典708中的一个。
过程1100基于主题词、文档语料库和主题文档语料库确定主题词散度值(1104)。例如,主题文档语料库可以包括属于由主题分类模块702生成的主题文档聚类中的一个的文档。主题分类模块704可以从所选择的主题词典中选择主题词。使用主题词和主题词在文档聚类和文档语料库中的主题词分布,散度值模块732可以确定主题词散度值。例如,散度值模块732可以基于在所选择的主题中所选择的主题词的概率、以及在文档语料库710中所选择的主题词的概率来计算主题词散度值。
过程1100基于文档语料库和主题文档语料库来确定候选主题词的候选主题词散度值(1106)。例如,散度值模块732可以通过选择候选主题词并且基于在所选择的主题中所选择的候选主题词的概率、以及在文档语料库710中所选择的候选主题词的概率计算候选主题词散度值,来确定候选主题词散度值。
过程1100确定候选主题词散度值是否大于主题词散度值(1108)。例如,主题分类模块704可以将候选主题词散度值与主题词散度值进行比较。
如果候选主题词散度值大于主题词散度值,则确定候选主题词是新主题词(1110)。例如,如果主题词处理模块704确定候选主题词散度值大于主题词散度值,则候选主题词是新主题词。
如果候选主题词散度值不大于主题词散度值,则确定候选主题词不是新主题词(1112)。例如,如果主题词处理模块704确定候选主题词散度值不大于主题词散度值,则候选主题词不是新主题词。
返回参考被系统200识别为新词的三字符和四字符词/短语,系统700可以将每个词识别为候选主题词,并且如上所述确定散度值。在示例评估中,可以将词“丁俊晖”(ding junhui)、“本赛季”(this season)、“世锦赛”(worldchampionship)、“季后赛”(play off)、“范甘迪”(Van Cundy)、和“国际足联”(FIFA)分配给体育主题,以及将词“反倾销”(anti dumping of low-priced)、“净利润”(net profit)、“证监会”(SEC)、“国资委”(china federal estatecommitter)、“美联储”(FED)和“非流通股”(Non-tradable shares)分配给金融主题。
在本说明书中描述的主题和功能操作的实施例可以以数字电子电路、或计算机软件、固件或硬件(包括在本说明书中公开的结构及其结构等价物)或它们中的一个或多个的组合来实现。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序产品,即编码在有形的程序载体上以供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。有形的程序载体可以是传播信号或计算机可读介质。传播信号是人工生成的信号,例如机器生成的电信号、光信号或电磁信号,其被生成以将信息编码为用于传输到适合的接收器装置以供计算机执行。计算机可读介质可以是机器可读存储设备、机器可读存储基片(storage substrate)、存储器设备、影响机器可读传播信号的物质成分、或它们中的一个或多个的组合。
术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机、多个处理器或计算机。装置除了硬件外还可以包括创建所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言来编写,包括编译语言或解释语言、或者声明性语言或过程语言,并且其可以以任何形式来部署,包括作为单机程序或作为模块、组件、子例程或适合于在计算环境中使用的其它单元。计算机程序不必对应于文件系统中的文件。可以将程序存储在拥有其它程序或数据的文件的一部分中(例如存储在标记语言文档中的一个或多个脚本)、存储在专用于所讨论的程序的单个文件中、或存储在多个协作文件中(例如存储一个或多个模块、子程序或代码部分的文件)。可以将计算机程序部署为在一个计算机或位于一个地点或跨多个地点分布并且通过通信网络互联的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行,所述可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。所述过程和逻辑流程也可以由专用逻辑电路来执行,并且装置也可以被实现为专用逻辑电路,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
作为示例,适合于执行计算机程序的处理器包括通用和专用微处理器两者、以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或它们两者接收指令和数据。计算机的必要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机也将包括一个或多个用于存储数据的大容量存储设备,或者被可操作地耦接到一个或多个大容量存储设备以从其接收数据或者将向其传送数据,或者两者均可,所述大容量存储设备例如磁盘、磁光盘或光盘。然而,计算机并非一定要具有这样的设备。此外,计算机可被嵌入另一个设备中,所述另一个设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器,等等。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备,作为示例包括例如EPROM、EEPROM和闪存设备的半导体存储设备;例如内部硬盘或可移动盘的磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或者并入专用逻辑电路。
为了提供与用户的交互,在本说明书中描述的主题的实施例可被实现在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户能够通过其向计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)的计算机上。也可以使用其它种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任意形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以包括声音、语音或触觉输入的任意形式接收来自用户的输入。
在本说明书中描述的主题的实施例能够被实现在计算系统中,所述计算系统包括后端组件,例如作为数据服务器;或包括中间件组件,例如应用服务器;或包括前端组件,例如具有图形用户界面或网页浏览器的客户端计算机,用户能够通过所述图形用户界面或网页浏览器与在本说明书中描述的主题的实现方式进行交互;或者包括一个或多个这样的后端组件、中间件组件或前端组件的任意组合。所述系统的组件可以通过任意形式或介质的数字数据通信(例如,通信网络)进行互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如因特网。
计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包含许多具体的实现方式细节,但是这些不应当被解释为对任何发明的范围或者可能主张的专利权利的范围的限制,相反地,应被解释为是对可能特定于具体发明的具体实施例的特征的描述。在本说明书中,在不同实施例的上下文中描述的某些特征也可在单个实施例中以组合的方式实现。相反地,在单个实施例的上下文中描述的各种特征也可单独地或以任何合适的子组合形式在多个实施例中实现。此外,尽管特征可能在上面被描述为以某种组合形式起作用,甚至最初被主张为以某种组合形式起作用,但是来自所主张的组合的一个或多个特征在一些情况下可从组合中去除,并且所主张的组合可被指向子组合或子组合的变型。
类似地,虽然操作在附图中以特定的次序描述,但是这不应当被理解为必须以示出的特定次序或以顺序的次序来执行这些操作,或者必须执行所有图示的操作,才能获得期望的结果。在某些情况中,多任务和并行处理可能是有益的。此外,在上面描述的实施例中的各个系统组件的分割不应当被理解为在所有的实施例中必须是这样的分割,并且应当理解所描述的程序组件和系统通常可以被一起集成在单个软件产品中或打包到多个软件产品中。
已描述了在本说明书中描述的主题的特定实施例。其它实施例也在所附权利要求书的范围内。例如,可以以不同的次序执行在权利要求书中叙述的动作而仍然获得期望的结果。作为一个示例,在附图中描述的过程并非必须要求示出的特定次序或者顺序的次序才能获得期望的结果。在某些实现方式中,多任务和并行处理可能是有益的。

Claims (52)

1.一种计算机实现的方法,包括:
确定主题散度值,所述主题散度值基本上与在主题文档语料库中的第一主题词分布和在文档语料库中的第二主题词分布的比值成比例,其中所述主题文档语料库是与主题相关的主题文档的语料库,并且所述文档语料库是包括所述主题文档和其他文档的文档的语料库;
确定候选主题词的候选主题词散度值,所述候选主题词散度值基本上与在所述主题文档语料库中所述候选主题词的第一分布和在所述文档语料库中所述候选主题词的第二分布的比值成比例;以及
基于所述候选主题词散度值和所述主题散度值确定所述候选主题词是否是新的主题词。
2.根据权利要求1所述的方法,还包括选择与所述主题相关的主题词典中的现有词作为所述主题词。
3.根据权利要求1所述的方法,其中确定主题散度值包括:
选择主题词;
确定每个主题词的主题词散度值,每个主题词散度值基本上与在所述主题文档语料库中每个主题词的第一分布和在所述文档语料库中每个主题词的第二分布的比值成比例;以及
基于所述主题词散度值的集中趋势确定所述主题散度值。
4.根据权利要求1所述的方法,其中在所述主题文档语料库中所述候选主题词的第一分布与在所述主题文档语料库中所述候选主题词的分布和基于所述分布的对数的值的比值成比例。
5.根据权利要求1所述的方法,其中确定所述候选主题词是否是新的主题词包括:如果所述候选主题词散度值大于所述主题散度值,则确定所述候选主题词是新的主题词。
6.根据权利要求1所述的方法,还包括:如果确定所述候选主题词是新的主题词,则将所述候选主题词存储在主题词典中。
7.根据权利要求1所述的方法,还包括:
识别所述文档语料库中与主题相关的文档;
生成与所述主题相关的文档聚类;
识别每个所述文档聚类中的词;以及
从在每个所述文档聚类中的所识别的词中选择候选主题词。
8.根据权利要求1所述的方法,还包括:
确定在训练语料库中现有词和候选词的第一词频率,所述候选词由构成词的序列定义,每个构成词是词典中的现有词,并且所述训练语料库包括所述文档语料库的第一子集;
确定在发展语料库中所述构成词和所述候选词的第二词频率,所述发展语料库包括所述文档语料库的第二子集;
基于所述候选词的第二词频率以及所述构成词和所述候选词的第一词频率,确定候选词熵量度;
基于所述构成词的第二词频率以及所述构成词和所述候选词的第一词频率,确定现有词熵量度;以及
如果所述候选词熵量度超过所述现有词熵量度,则确定所述候选词是候选主题词。
9.根据权利要求8所述的方法,其中:
确定在训练语料库中现有词和候选词的第一词频率包括:针对在所述训练语料库中现有词和候选词的概率训练语言模型;并且
其中确定在发展语料库中所述构成词和所述候选词的第二词频率包括:确定在发展语料库中所述构成词中的每一个和所述候选词的词计数值。
10.根据权利要求9所述的方法,其中:
基于所述候选词的第二词频率以及所述构成词和所述候选词的第一词频率确定候选词熵量度包括:
基于所述候选词和所述构成词的概率确定第一对数值;和
基于所述候选词的词计数值和所述第一对数值确定候选词熵量度;并且
基于所述构成词的第二词频率以及所述构成词和所述候选词的第一词频率确定现有词熵量度包括:
基于所述候选词和所述构成词的概率确定第二对数值;以及
基于所述构成词的词计数和所述第二对数值确定现有词熵量度。
11.根据权利要求1所述的方法,其中所述候选主题词包括一个或多个汉字字符。
12.一种计算机实现的方法,包括:
选择主题词典,所述主题词典包括与主题相关的主题词;
基于主题词、文档语料库和主题文档语料库确定主题词散度值,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述文档语料库是包括所述主题文档和其他文档的文档的语料库,并且所述主题词是与所述主题相关的词;
基于所述文档语料库和所述主题文档语料库,确定候选主题词的候选主题词散度值;以及
基于所述候选主题词散度值和所述主题词散度值,确定所述候选主题词是否是新的主题词。
13.根据权利要求12所述的方法,还包括:如果确定所述候选主题词是新的主题词,则将所述候选主题词存储在所述主题词典中。
14.根据权利要求12所述的方法,其中确定主题词散度值包括:
选择所述主题词典中的现有主题词;
基于所述文档语料库和所述主题文档语料库,确定每个所述主题词的现有主题词散度值;以及
基于所述现有主题词散度值的集中趋势,确定所述主题词散度值。
15.根据权利要求12所述的方法,其中,基于所述文档语料库和所述主题文档语料库确定所述候选主题词的候选主题词散度值包括:
确定在所述主题文档语料库中与所述候选主题词相关联的第一概率;
确定在所述文档语料库中与所述候选主题词相关联的第二概率;和
基于所述第一概率与所述第二概率和基于所述第一概率的对数的值的乘积的比值,计算所述候选主题词散度值。
16.根据权利要求12所述的方法,其中所述候选主题词包括一个或多个汉字字符。
17.一种包括存储在计算机可读介质中的软件的装置,所述软件包括计算机可读指令,所述计算机可读指令可由计算机处理设备执行,并且在被如此执行时使得所述计算机处理设备:
基于主题词、文档语料库和主题文档语料库确定主题词散度值,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述文档语料库是包括所述主题文档和其他文档的文档的语料库,并且所述主题词是在与所述主题相关的主题词典中的词;
基于所述文档语料库和所述主题文档语料库,确定候选主题词的候选主题词散度值;
基于所述候选主题词散度值和所述主题词散度值,确定所述候选主题词是否是主题词;以及
如果确定所述候选主题词是主题词,则将所述候选主题词存储在主题词典中。
18.一种系统,包括:
数据存储单元,其存储主题词典,所述主题词典包括与主题相关的主题词;
主题词处理模块,被配置为:
基于主题词、文档语料库和主题文档语料库确定主题词散度值,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述文档语料库是包括所述主题文档和其他文档的文档的语料库,并且所述主题词是在与所述主题相关的主题词典中的词;
选择候选主题词;
基于所述文档语料库和所述主题文档语料库,确定所述候选主题词的候选主题词散度值;以及
基于所述候选主题词散度值和所述主题词散度值,确定所述候选主题词是否是主题词;以及
词典更新器模块,被配置为:如果确定所述候选主题词是主题词,则将所述候选主题词存储在所述主题词典中。
19.根据权利要求18所述的系统,其中所述主题词处理模块被配置为:
确定在所述主题文档语料库中与所述候选主题词相关联的第一概率;
确定在所述文档语料库中与所述候选主题词相关联的第二概率;以及
基于所述第一概率与所述第二概率和基于所述第一概率的对数值的乘积的比值,计算所述候选主题词散度值。
20.一种方法,包括:
确定主题文档语料库的散度阈值,所述散度阈值与在所述主题文档语料库中主题词的第一主题词概率和在文档语料库中所述主题词的第二主题词概率的比值成比例,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述主题词是在与所述主题相关的主题词典中的词,并且所述文档语料库是包括所述主题文档和其他文档的文档的语料库;
确定候选词的候选词散度值,所述候选词散度值与所述候选词关于所述主题文档语料库的第一候选词概率和所述候选词关于所述文档语料库的第二候选词概率的比值成比例;以及
如果所述候选词散度值超过所述散度阈值,则确定所述候选词是主题词。
21.一种系统,包括:
用于确定主题散度值的装置,所述主题散度值基本上与在主题文档语料库中的第一主题词分布和在文档语料库中的第二主题词分布的比值成比例,其中所述主题文档语料库是与主题相关的主题文档的语料库,并且所述文档语料库是包括所述主题文档和其他文档的文档的语料库;
用于确定候选主题词的候选主题词散度值的装置,所述候选主题词散度值基本上与在所述主题文档语料库中所述候选主题词的第一分布和在所述文档语料库中所述候选主题词的第二分布的比值成比例;以及
用于基于所述候选主题词散度值和所述主题散度值确定所述候选主题词是否是新的主题词的装置。
22.一种系统,包括:
用于选择主题词典的装置,所述主题词典包括与主题相关的主题词;
用于基于主题词、文档语料库和主题文档语料库确定主题词散度值的装置,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述文档语料库是包括所述主题文档和其他文档的文档的语料库,并且所述主题词是与所述主题相关的词;
用于基于所述文档语料库和所述主题文档语料库确定候选主题词的候选主题词散度值的装置;以及
用于基于所述候选主题词散度值和所述主题词散度值确定所述候选主题词是否是新的主题词的装置。
23.一种计算机处理设备,包括:
用于基于主题词、文档语料库和主题文档语料库确定主题词散度值的装置,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述文档语料库是包括所述主题文档和其他文档的文档的语料库,并且所述主题词是在与所述主题相关的主题词典中的词;
用于基于所述文档语料库和所述主题文档语料库确定候选主题词的候选主题词散度值的装置;
用于基于所述候选主题词散度值和所述主题词散度值确定所述候选主题词是否是主题词的装置;以及
用于如果确定所述候选主题词是主题词则将所述候选主题词存储在主题词典中的装置。
24.一种系统,包括:
用于确定主题文档语料库的散度阈值的装置,所述散度阈值与在所述主题文档语料库中主题词的第一主题词概率和在文档语料库中所述主题词的第二主题词概率的比值成比例,其中所述主题文档语料库是与主题相关的主题文档的语料库,所述主题词是在与所述主题相关的主题词典中的词,并且所述文档语料库是包括所述主题文档和其他文档的文档的语料库;
用于确定候选词的候选词散度值的装置,所述候选词散度值与所述候选词关于所述主题文档语料库的第一候选词概率和所述候选词关于所述文档语料库的第二候选词概率的比值成比例;以及
用于如果所述候选词散度值超过所述散度阈值则确定所述候选词是主题词的装置。
25.一种计算机实现的方法,包括:
确定在训练语料库中现有词和候选词的第一词频率,所述候选词由构成词的序列定义,每个构成词是词典中的现有词;
确定在发展语料库中所述构成词和所述候选词的第二词频率;
基于所述候选词的所述第二词频率以及所述构成词和所述候选词的所述第一词频率,确定候选词熵相关量度;
基于所述构成词的所述第二词频率以及所述构成词和所述候选词的所述第一词频率,确定现有词熵相关量度;以及
如果所述候选词熵相关量度超过所述现有词熵相关量度,则确定所述候选词是新词。
26.根据权利要求25所述的方法,其中所述训练语料库和所述发展语料库包括网络文档。
27.根据权利要求25所述的方法,还包括:如果确定所述候选词是新词,则将所述候选词添加到现有词的词典中。
28.根据权利要求25所述的方法,其中:
确定第一词频率包括:针对在所述训练语料库中现有词和候选词的概率训练语言模型;并且
其中确定第二词频率包括:确定在所述发展语料库中每个所述构成词和所述候选词的词计数值。
29.根据权利要求25所述的方法,其中:
确定候选词熵相关量度包括:
基于所述候选词和所述构成词的概率确定第一对数值;
基于所述候选词的词计数值和所述第一对数值确定所述候选词熵相关量度;以及
确定现有词熵相关量度包括:
基于所述候选词和所述构成词的概率确定第二对数值;以及
基于所述构成词的词计数和所述第二对数值确定所述现有词熵相关量度。
30.根据权利要求25所述的方法,其中所述词每一个包括一个或多个汉字字符。
31.根据权利要求25所述的方法,其中所述词每一个包括一个或多个词符字符。
32.根据权利要求25所述的方法,还包括:
如果确定所述候选词是新词,则利用所述候选词更新所述词典。
33.一种计算机实现的方法,包括:
确定在第一语料库中现有词和候选词的第一词概率,所述候选词由构成词的序列定义,每个构成词是词典中的现有词;
确定在第二语料库中所述构成词和所述候选词的第二词概率;
基于所述第二候选词概率以及所述候选词和所述构成词的所述第一词概率,确定第一熵相关值;
基于所述第二构成词概率以及所述候选词和所述构成词的所述第一词概率,确定第二熵相关值;以及
如果所述第一熵相关值超过所述第二熵相关值,则确定所述候选词是新词。
34.根据权利要求33所述的方法,其中识别词语料库包括识别网络文档。
35.根据权利要求33所述的方法,其中:
确定第一词概率包括:在第一语料库上针对在所述第一语料库中现有词和候选词的词概率训练语言模型;以及
确定第二词概率包括:确定每个所述构成词和所述候选词的词计数值。
36.根据权利要求35所述的方法,其中:
确定第一熵相关值包括:
基于所述候选词和所述构成词的所述第一词概率确定第一对数值;
基于所述候选词的词计数值和所述第一对数值确定所述第一熵相关值;以及
确定第二熵相关值包括:
基于所述候选词和所述构成词的所述第一词概率确定第二对数值;以及
基于所述构成词的词计数和所述第二对数值确定所述第二熵相关值。
37.根据权利要求33所述的方法,其中所述词每一个包括一个或多个汉字字符。
38.一种计算机实现的方法,包括:
将网络文档的集合划分成训练语料库和发展语料库;
在训练语料库上针对在所述训练语料库中的词的第一词概率训练语言模型,其中所述训练语料库中的词包括由所述训练语料库中的两个或更多个相应词的序列定义的候选词,所述两个或更多个相应词是词典中的现有词;
对在所述发展语料库中所述候选词和所述两个或更多个相应词的出现次数计数;
基于在所述发展语料库中所述候选词的出现次数和所述第一词概率确定第一值;
基于在所述发展语料库中所述两个或更多个相应词的出现次数和所述第一词概率确定第二值;
将所述第一值与所述第二值进行比较;以及
基于所述比较确定所述候选词是否是新词。
39.根据权利要求38所述的方法,还包括:如果确定所述候选词是新词,则将所述候选词添加到所述词典中。
40.根据权利要求38所述的方法,其中在所述训练语料库上针对在所述训练语料库中的词的第一词概率训练语言模型包括:训练n元语言模型。
41.根据权利要求40所述的方法,其中:
基于在所述发展语料库中所述候选词的出现次数和所述第一词概率确定第一值包括:
基于所述候选词的第一词概率和所述两个或更多个相应词的第一词概率确定第一对数值;以及
将所述第一对数值乘以所计数的所述候选词的出现次数;以及
其中基于在所述发展语料库中所述两个或更多个相应词的出现次数和所述第一词概率确定第二值包括:
基于所述候选词的第一词概率和所述两个或更多个相应词的第一词概率确定第二对数值;以及
将所述第二对数值乘以所计数的所述两个或更多个相应词的出现次数。
42.根据权利要求41所述的方法,其中所述词每一个包括一个或多个汉字字符。
43.一种系统,包括:
词处理模块,所述词处理模块包括存储在计算机可读介质中的计算机指令,并且所述计算机指令被配置为在被计算机设备执行时访问词语料库并且将所述词语料库划分为训练语料库和发展语料库,并且生成:
存储在所述训练语料库中的词的第一词概率,所述词包括候选词,该候选词包括两个或更多个相应词;
在所述发展语料库中所述词的第二词概率;
新词分析器模块,所述新词分析器模块包括存储在计算机可读介质中的计算机指令,并且所述计算机指令被配置为在被计算机设备执行时处理所述第一和第二词概率,并且:
基于所述候选词和所述两个或更多个相应词的所述第一词概率以及所述候选词的所述第二词概率,生成第一值;以及
基于所述候选词和所述两个或更多个相应词的所述第一词概率以及所述两个或更多个相应词的所述第二词概率,生成第二值;
并且还被配置为:将所述第一值与所述第二值进行比较,以及基于所述比较确定所述候选词是否是新词。
44.根据权利要求43所述的系统,还包括词典更新器模块,所述词典更新器模块包括存储在计算机可读介质中的计算机指令,所述计算机指令被配置为在被计算机设备执行时利用所识别的新词更新词典。
45.根据权利要求43所述的系统,其中所述词处理模块包括n元语言模型。
46.根据权利要求43所述的系统,其中所述第一和第二值是熵相关值。
47.根据权利要求44所述的系统,其中所述词语料库包括网络文档。
48.根据权利要求43所述的系统,其中所述词处理模块包括汉字字符处理模块。
49.根据权利要求48所述的系统,其中每个词包括一个或多个汉字字符。
50.一种装置,所述装置包括存储在计算机可读介质中的软件,所述软件包括可由计算机处理设备执行的计算机可读指令,并且所述计算机可读指令在被如此执行时使得所述计算机处理设备:
确定在训练语料库中现有词和候选词的第一词频率,所述候选词由构成词的序列定义,每个构成词是现有词,并且每个现有是在词典中存在的词;
确定在发展语料库中所述构成词和所述候选词的第二词频率;
基于所述候选词的所述第二词频率以及所述构成词和所述候选词的所述第一词频率,确定候选词熵相关量度;
基于所述构成词的所述第二词频率以及所述构成词和所述候选词的所述第一词频率,确定现有词熵相关量度;以及
如果所述候选词熵相关量度超过所述现有词熵相关量度,则确定所述候选词是新词。
51.一种系统,包括:
用于确定在第一语料库中现有词和候选词的第一词概率的装置,所述候选词由构成词的序列定义,每个构成词是现有词,并且每个现有词是在词典中存在的词;
用于确定在第二语料库中所述构成词和所述候选词的第二词概率的装置;
用于基于所述候选词的所述第二词概率以及所述候选词和所述构成词的所述第一词概率确定第一熵相关值的装置;
用于基于所述构成词的所述第二词概率以及所述候选词和所述构成词的所述第一词概率确定第二熵相关值的装置;以及
用于基于在所述第一熵相关值与所述第二熵相关值之间的比较确定所述候选词是否是新词的装置。
52.一种系统,包括:
词处理装置,所述词处理装置被配置为访问词语料库并且将所述词语料库划分为训练语料库和发展语料库,并且生成:
存储在所述训练语料库中的词的第一词概率,所述词包括候选词,所述候选词包括两个或更多个相应词;
在所述发展语料库中所述词的第二词概率;
新词分析器装置,所述新词分析器装置被配置为接收所述第一和第二词概率,并且:
基于所述候选词和所述两个或更多个相应词的所述第一词概率以及所述候选词的所述第二词概率,生成第一值;以及
基于所述候选词和所述两个或更多个相应词的所述第一词概率以及所述两个或更多个相应词的所述第二词概率,生成第二值;
并且还被配置为:将所述第一值与所述第二值进行比较,以及基于所述比较确定所述候选词是否是新词。
CN200880112723A 2007-08-23 2008-08-25 域词典创建 Pending CN101836205A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11/844,067 2007-08-23
US11/844,153 2007-08-23
US11/844,153 US7917355B2 (en) 2007-08-23 2007-08-23 Word detection
US11/844,067 US7983902B2 (en) 2007-08-23 2007-08-23 Domain dictionary creation by detection of new topic words using divergence value comparison
PCT/CN2008/072128 WO2009026850A1 (en) 2007-08-23 2008-08-25 Domain dictionary creation

Publications (1)

Publication Number Publication Date
CN101836205A true CN101836205A (zh) 2010-09-15

Family

ID=40386710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880112723A Pending CN101836205A (zh) 2007-08-23 2008-08-25 域词典创建

Country Status (3)

Country Link
JP (1) JP5379138B2 (zh)
CN (1) CN101836205A (zh)
WO (1) WO2009026850A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN107045871A (zh) * 2016-02-05 2017-08-15 谷歌公司 利用外部数据源重新识别语音
CN107704102A (zh) * 2017-10-09 2018-02-16 北京新美互通科技有限公司 一种文本输入方法及装置
CN108027822A (zh) * 2015-04-21 2018-05-11 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于从文档语料库中生成概念的系统和方法
CN108170294A (zh) * 2013-08-08 2018-06-15 阿里巴巴集团控股有限公司 词汇显示、字段转换方法及客户端、电子设备和计算机存储介质
CN110347931A (zh) * 2013-06-06 2019-10-18 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011120211A1 (en) 2010-03-29 2011-10-06 Nokia Corporation Method and apparatus for seeded user interest modeling
CN102236639B (zh) * 2010-04-28 2016-08-10 三星电子株式会社 更新语言模型的系统和方法
US9069798B2 (en) * 2012-05-24 2015-06-30 Mitsubishi Electric Research Laboratories, Inc. Method of text classification using discriminative topic transformation
CN105956359B (zh) * 2016-04-15 2018-06-05 陈杰 一种用于异构系统的药品项目名称对照转译方法
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN113780007A (zh) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN115858787B (zh) * 2022-12-12 2023-08-01 交通运输部公路科学研究所 一种基于公路运输中问题诉求信息的热点提取和挖掘方法
CN116911321A (zh) * 2023-06-21 2023-10-20 三峡高科信息技术有限责任公司 一种前端自动翻译字典值的方法及组件

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2883153B2 (ja) * 1990-04-02 1999-04-19 株式会社リコー キーワード抽出装置
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6651058B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method of automatic discovery of terms in a document that are relevant to a given target topic
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
JP4254623B2 (ja) * 2004-06-09 2009-04-15 日本電気株式会社 トピック分析方法及びその装置並びにプログラム
JP5259919B2 (ja) * 2005-07-21 2013-08-07 ダイキン工業株式会社 軸流ファン
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN110347931A (zh) * 2013-06-06 2019-10-18 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN108170294A (zh) * 2013-08-08 2018-06-15 阿里巴巴集团控股有限公司 词汇显示、字段转换方法及客户端、电子设备和计算机存储介质
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN108027822A (zh) * 2015-04-21 2018-05-11 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于从文档语料库中生成概念的系统和方法
CN107045871A (zh) * 2016-02-05 2017-08-15 谷歌公司 利用外部数据源重新识别语音
CN107045871B (zh) * 2016-02-05 2020-09-15 谷歌有限责任公司 利用外部数据源重新识别语音
CN107704102A (zh) * 2017-10-09 2018-02-16 北京新美互通科技有限公司 一种文本输入方法及装置
CN107704102B (zh) * 2017-10-09 2021-08-03 北京新美互通科技有限公司 一种文本输入方法及装置

Also Published As

Publication number Publication date
JP5379138B2 (ja) 2013-12-25
JP2010537286A (ja) 2010-12-02
WO2009026850A1 (en) 2009-03-05

Similar Documents

Publication Publication Date Title
CN101836205A (zh) 域词典创建
CN101785000B (zh) 词概率确定方法和系统
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US11288444B2 (en) Optimization techniques for artificial intelligence
US7917355B2 (en) Word detection
CN102124459B (zh) 词典词和短语确定
CN101779200B (zh) 词典词和短语确定方法和设备
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
US20230040095A1 (en) Method for pre-training model, device, and storage medium
CN101939741B (zh) Cjk姓名检测
US11443170B2 (en) Semi-supervised training of neural networks
CN102272754A (zh) 定制语言模型
CN109074517B (zh) 全局归一化神经网络
Zhang et al. AMBERT: A pre-trained language model with multi-grained tokenization
CN102915733A (zh) 交互式语音识别
US11954594B1 (en) Training recurrent neural networks to generate sequences
US11651015B2 (en) Method and apparatus for presenting information
Ali et al. Genetic approach for Arabic part of speech tagging
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN107111607A (zh) 用于语言检测的系统和方法
Van Den Bosch Scalable classification-based word prediction and confusible correction
Faizi et al. A sentiment analysis based approach for exploring student feedback
US20240119366A1 (en) Online training of machine learning models using bayesian inference over noise
Grudowski et al. Developing Methods for Building Intelligent Systems of Information Resources Processing Using an Ontological Approach
CN114462411A (zh) 命名实体识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100915