CN1664818A - 用于单词拆分的新词收集方法和系统 - Google Patents

用于单词拆分的新词收集方法和系统 Download PDF

Info

Publication number
CN1664818A
CN1664818A CN2005100531707A CN200510053170A CN1664818A CN 1664818 A CN1664818 A CN 1664818A CN 2005100531707 A CN2005100531707 A CN 2005100531707A CN 200510053170 A CN200510053170 A CN 200510053170A CN 1664818 A CN1664818 A CN 1664818A
Authority
CN
China
Prior art keywords
inquiry
catalogue
neologisms
word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2005100531707A
Other languages
English (en)
Other versions
CN1664818B (zh
Inventor
奧村薰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1664818A publication Critical patent/CN1664818A/zh
Application granted granted Critical
Publication of CN1664818B publication Critical patent/CN1664818B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种用于收集新词,添加到粘着性语言所用的词库的方法,计算机可读的媒体和系统。在本方法中,获得提交到搜索引擎的问询日志。把该问询日志进行分类以获得分类问询。然后使用多重探试性标准将分类问询进行过滤,以获得新词的候选目录。然后把新词候选目录上的单词添加到词库。

Description

用于单词拆分的新词收集方法和系统
                             发明背景
本发明涉及单词拆分器。更特别地,本发明涉及用于单词拆分的新词收集方法和系统。
单词拆分是处理文本输入的自然语言处理应用的一个重要部分。特别是,单词拆分对大多数搜索引擎尤其重要。出于多种目的,搜索引擎对输入串施行单词拆分。例如,为确定复合词的组成单词对输入串施行单词拆分。
单词拆分对诸如日语,汉语和朝鲜语等粘着性语言尤其重要。粘着性语言是指一种单词由独立词素的线性顺序组成的语言,含义的每个构件由其自身的词素表示。粘着性语言的其它例子包括闪语(Sumerian),豪利特语(Hourrite),奥拉陶语(Ourartau),巴斯克语和土耳其语。通常,在粘着性语言中,单词复合时可不用空格符分隔构件单词。
搜索目标常常包含各种词典尚未收录的新单词,且不会出现在定制词库中。当搜索引擎询问的输入串或待标引和搜索的文件中含有未知单词时,对单词拆分器来说很难恰当地拆分这个串。对于那些单词不用分隔符分隔的语言尤其如此。这具有潜在的降低搜索结果的精确度/覆盖度的可能。
为单词拆分器使用的定制词库收集新词,是一项无止尽的工作。现有的用于为定制词库收集新词的技术是一项耗费时间的、繁重的工作。通常,新词由搜索网站所有者人工收集,用于加入该网站使用的定制词库。新词也可由开发者人工收集,归入下一代产生的系统词典中。这些新词收集技术耗费时间、劳动密集,还有许多地方有待改进。
                             发明内容
本发明提供一种用于收集新词添加到粘着性语言的词库的方法,计算机可读媒体和系统。在此方法中,获得提交到搜索引擎的问询日志。把此问询日志经分类得到分类的问询。然后用多重探试法标准过滤分类的问询,得到一个新词的候选目录。然后将新词的候选目录中的单词添加到词库。
在一些实施例中,使用多重探试法标准过滤分类的问询,得到新词的候选目录,还包括,从新词的候选目录中,淘汰长度超过预定的阈长度,象是复合词的那些问询。如果需要,在一些实施例中,可使用基于长度的过滤,淘汰长度小于预定阈长度的问询,如果确定它们不象是单词,而更象是用户无意中点击确认键的结果。
在一些实施例中,使用多重探试法标准过滤分类的问询,得到新词的候选目录,还包括,从候选目录中,淘汰问询日志中出现频度小于预定的阈出现频度的问询。
在一些实施例中,使用多重探试法标准过滤分类的问询,得到新词的候选目录,还包括,从候选目录中,淘汰已经由单词拆分器分析,被认为是单字的那些问询。
表征本发明实施例的其它特点和优点,将通过阅读下面的详细描述和查阅相关附图变得显而易见。
                             附图简述
图1是使用本发明的一个示例环境的方框图。
图2是说明用于本发明的搜索引擎标引系统的一个实施例的方框图。
图3是说明用于本发明的搜索引擎系统的一个实施例的方框图。
图4是说明本发明的新词收集系统和方法的一个实施例的方框图。
图5是说明图4所示探试性过滤模块的一个实施例的方框图。
                     示例性实施例的详细描述
图1例示了一个可实现本发明的合适的计算机系统环境100的例子。计算机系统环境100仅是合适的计算机环境的一个例子,而不打算对本发明的使用范围或功能作任何限制。同样,计算机环境100不应被理解对示例性的操作环境100中的任何部件或部件的组合具有任何依赖性或要求。
本发明在众多其它通用或专用计算机系统环境或配置上具有可操作性。可用于本发明的知名运算系统,环境,和/或配置的例子包括,但不局限于:个人电脑,服务器电脑,手提电脑或膝上设备,多处理器系统,基于微处理器系统,机顶盒,可编程消费类电子产品,网络PC机,迷你电脑,大型计算机,以及包括任何上述和类似系统或设备的分布式计算机环境。
本发明可用计算机可执行指令的通用语言环境描述,例如正在被计算机执行的程序模块。通常,程序模块包括例行程序,程序,对象,组件,数据结构等,它们履行特定任务或实现特定抽象数据类型。本发明也可在分布式计算机环境中实施,其任务通过通信网络连接的远程处理设备实施。在分布式计算机环境中,程序模块可位于本地或远程计算机存储介质中,包括记忆存储设备。
如图1所示,一种实现本发明的示例系统,包括以计算机110为形式的通用运算设备。计算机110的部件可包括,但不局限于,处理单元120,系统存储器130,和系统总线121,后者将包括系统存储器的各种系统部件耦合至处理单元120。系统总线121可任选自多种类型总线结构,包括存储总线或存储控制器,外围总线,和使用任何多种总线体系结构的局部总线。作为例子,但不作限制,这种体系结构包括工业标准体系结构(ISA)总线,微型通道体系结构(MCA)总线,增强ISA(EISA)总线,视频电子标准协会(VESA)局部总线,和外围部件互连(PCI)总线,也称作夹层总线。
计算机110通常包括多种计算机可读媒体。计算机可读媒体可以是任何现存的可被计算机110访问的媒体,包括易丢失和不易丢失媒体,可移动和不可移动媒体。作为例子,但不作限制,计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体可包括易丢失和不易丢失媒体,可移动和不可移动媒体,用于在任何方法或技术中实现信息的储存,例如计算机可读指令,数据结构,程序模块或其它数据。计算机存储媒体包括,但不局限于,RAM,ROM,EEPROM,闪存或其它存储技术,CD-ROM,数字多用光盘(DVD)或其它光盘存储器,盒式磁带,磁带,磁盘存储器或其它磁性存储设备,或任何其它可被用来存储需要的信息,并可被计算机110访问的媒体。通信媒体通常包括计算机可读指令,数据结构,程序模块或其它例如载波或其它传输机制的调制数据信号形式的数据,并包括任何信息传递媒体。术语“调制数据信号”指一种信号,具有一种或更多特性,其可用在信号中编码信息方式被设置或变化。作为例子,但不作限制,通信媒体包括有线媒体,例如有线网络或直接有线连接,以及无线媒体,例如声波,射频,红外线和其它无线媒体。上述任何组合也应包括在计算机可读媒体的范围内。
系统存储器130包括以易丢失和/或不易丢失存储器的形式存在的计算机存储媒体,例如只读存储器(ROM)131和随机存取存储器(RAM)132。包含基本例行程序、用来例如在启动期间帮助在计算机110中的元件之间传送信息的基本输入/输出系统(BIOS),通常存储在ROM 131中。RAM 132通常包含即时访问的和/或处理单元120当前正在操作的数据和/或程序模块。作为例子,但不作限制,图1例示了操作系统134,应用程序135,其它程序模块136,和程序数据137。
计算机110也可包括其它可移动/不可移动、易丢失/不易丢失计算机存储媒体。仅作为例子,图1例示了从不可移动、不易丢失的磁性媒体读出或写入的硬盘驱动器141,从可移动、不易丢失的磁盘152读出或写入的磁盘驱动器151,以及从可移动、不易丢失的光盘156,例如CD-ROM或其它光媒体读出或写入的光盘驱动器155。其它可用于示例操作环境的可移动/不可移动、易丢失/不易丢失计算机存储媒体包括,但不局限于,盒式磁带,闪存卡,数字多用光盘,数字录像带,固态RAM,固态ROM以及类似媒体。硬盘驱动器141通常通过不可移动存储器接口例如接口140连接到系统总线121,而磁盘驱动器151,光盘驱动器155通常通过可移动存储器接口例如接口150连接到系统总线121。
前面讨论的及图1例示的驱动器及其相关计算机存储媒体,为计算机110提供了计算机可读指令,数据结构,程序模块以及其它数据的存储。例如,在图1中,例示了硬盘驱动器141用作储存操作系统144,应用程序145,其它程序模块146,和程序数据147。应注意这些部件可以与操作系统134,应用程序135,其它程序模块136,和程序数据137相同或不同。在这里操作系统144,应用程序145,其它程序模块146,和程序数据147被给予不同的序号,至少说明它们是不同的拷贝。
用户可通过例如键盘162,话筒163的输入设备和诸如鼠标,轨迹球,触摸板等指示设备161将命令或信息输入计算机110。其它输入设备(未显示)可包括游戏操纵杆,游戏板,卫星盘,扫描仪或类似设备。这些以及其它输入设备常通过耦合至系统总线的用户输入接口160连接到处理单元120,但也可通过其它接口和总线结构,例如并行端口,游戏端口或通用串行端口(USB)连接。监示器191或其它类型的显示设备同样通过接口,例如视频接口190连接到系统总线121。除了监示器,计算机也可包括其它外围输出设备,例如扬声器197和打印机196,它们可通过外围输出接口195连接。
计算机110可使用与一台或多台远程计算机,例如远程计算机180的逻辑连接在网络环境中运行。远程计算机180可以是个人电脑,手提设备,服务器,路由器,网络PC机,同级设备或其它公共网络结点,通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这种网络环境在办公室,企业内计算机网络,内联网和因特网中普遍存在。
在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接到LAN171。在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它在诸如因特网之类WAN内建立的通信手段。内置或外置的调制解调器172,可经用户输入接口160或其它合适的机制连接至系统总线121。在一个网络环境中,与计算机110或其一部分的相应的程序模块,可储存在远程记忆存储设备中。作为例子,但不作限制,图1例示了留驻在远程计算机180上的远程应用程序185。应当理解为所示的网络连接是示例性的,也可使用建立计算机之通信连接的其它方法。
本发明包括用于收集添加到单词拆分器所用词库的新词的改进方法。收集方法和单词拆分器,这两者之一或全部可在图1例示的这一运算环境中实现,或在其它类型的计算机环境中实现。与常规的、常导致高度人力耗费的收集新词归入定制词库或系统词典的传统方法相比较,本发明的方法和系统利用搜索问询日志,自动或半自动地获取新词。本发明的新词收集方法对粘着性语言尤其适用,这些语言中单词之间的组合不使用空格或连字符。
图2是一种搜索引擎标引系统200的方框图,说明了用搜索引擎在处理以后使用的标引文件或网站期间进行单词拆分的一个应用。系统200包括字符串提取模块210。进行检索时,模块210从215所示的文件或网站(统称为“文件”)中提取字符串211。
系统200也包括单词拆分模块220,用来分析字符串211,产生关键字221。单词拆分模块220可发挥常规的单词拆分模块一样的作用。从字符串211中产生关键字221的过程中,单词拆分模块220利用了词库225。词库225可以是一个常规的,被用于多种用途的完整词库,一个专用于特定用途的定制词库,或这两者的结合。按照惯例,单词拆分模块220也可使用字符串的特定粘着性语言合适的语法230和统计数据235。
由于一些搜索引擎排除了某些干扰词(noise words),单词拆分模块220也可访问干扰词数据库或目录240,并且从以后将被用作关键字221的结果单词组中,删除或排除干扰词。如果需要的话,这项功能也可在独立的干扰词排除步骤里,通过独立的干扰词排除模块实现。干扰词目录240中的干扰词可以是通用的,或特定搜索引擎专用,因为并不是所有的搜索引擎可能会排除相同的干扰词。举例说干扰词可包括功能性单词,例如那些对应于英语中的“a”和“the”的词。另一个例子,在日语中,可排除一个字符的日语假名。同样存在许多其它类型的干扰词,这将取决于特定的粘着性语言。
单词拆分模块220提供的结果关键字221加入索引250。索引250将关键字与文件215相关联,从中提取原始字符串。然后这些关键字被用来检索合适的文件,来响应包含这些关键字的搜索引擎问询。
图3是搜索引擎系统300的方框图,说明了单词拆分在搜索文件或网站时,响应自然语言用户问询时的一个应用。系统300包括单词拆分模块220,用于接收一个文本输入形式305的用户问询。以粘着性语言的情况下为例,文本输入305通常是文本串的形式。所例示的单词拆分模块与图2中系统200使用的单词拆分模块是相同的。然而,并不是必须如此,不同系统之间使用的单词拆分模块可存在差别。
单词拆分模块220使用词库225以已知的方式实现单词拆分功能。如前面所述的,单词拆分模块也可使用语法、统计数据和其它资源,以实现所要求的或对被分析的特定语言最有效用的单词拆分功能。单词拆分模块220的输出是源自文本输入305的单词目录310。
与上述检索系统200类似,搜索引擎系统300可排除干扰词。同样,干扰词可包括类似相当于“a”和“the”之类的功能性词,或那些内容不丰富的和不带明显意义的其它词。干扰词可以是特定语言专有的,同样可以日语的假名为例。干扰词的排除是可选的,并可在独立的干扰词排除模块329中实现或在单词拆分模块220内实现。排除干扰词之后,结果是一个关键字330的目录或群。
系统300也包括关键字查询模块340,用来将关键字330与索引250中储存的关键字作比较。一致的文件或站点(site)215(或一致的文件或站点的目录)被检索出来。关键字查询模块340通常会将检索到的文件或站点排序,以使结果350是最可能需要的问询结果。例如,模块340对结果的排序可以是基于文件或站点中关键字的出现频度,基于关键字在单个文件或站点中实际发现所占百分比,或其它排序标准。
现在来看图4,示出的是一种本发明实施例的新词收集系统400。图4中说明的各种模块同样可代表本发明的方法。为更好地说明本发明,系统400及其相应的方法将在一起描述。
本发明的这种新词收集方法的第一步是获取搜索引擎的搜索或问询日志,以收集一个已用特定语言提交的问询目录。这在图4中表示为问询日志410。接着,以日志中出现频度为功能对问询日志分类。这个步骤,及其在系统400中对应的构件,由问询日志存储模块420表示,后者把分类的问询421作为输出。可使用任意一种技术用发生频度对问询日志进行分类。例如,发生频度可基于一个问询以完全(或接近完全)相同的形式发生的次数。然而,发生频度也可基于把相似问询组合在一起成为一个问询包,即使这些问询不表现为完全相同的形式。
接着,本方法包括基于一些预定的探试法,对分类的问询进行过滤。这在图4中用探试过滤模块430说明,过滤后在输出431提供一个新词的候选目录。虽然用来过滤分类问询的探试法针对特定实现目标和/或不同语言,是可变化的,但是探试过滤标准的例子在图5中进一步说明。
如图5所示,探试过滤模块430(代表探试过滤标准)可包括一个问询长度过滤器510。问询长度过滤器510滤除比一些预定字数或字符长和/或短的问询串,在输出511,仅提供通过这个标准的问询。这个过滤标准从新词候选目录中淘汰了那些可能是复合词(比上阈值长)的串,或过短以至不象是新词(短于下阈值)的串,例如用户无意中点击输入键所致。应该注意,过滤淘汰过长的词不必与过滤过短的词一起使用。在一些实施例中没有基于过短词的过滤。
接着,对余下的问询进行过滤,以淘汰那些在问询日志中出现不够频繁的问询。这在图5中被表示为问询频度过滤器520。问询频度过滤器520滤除在问询日志中出现次数不超过某个预定阈值的问询串,在输出521仅提供发生足够频繁,得以通过该标准的问询。应该注意,在其它实施例中,问询频度过滤器520可先于问询长度过滤器510实现其功能。同样,过滤顺序的其它改变也是可行的。
接着,基于单词拆分结果对余下的问询进行过滤。这在图5中被表示为单词拆分结果过滤器530。单词拆分结果过滤器530将余下的问询与单词拆分结果比较,淘汰已经过单词拆分模块220分析被认为是单字的任何问询。在提供单词拆分结果时,模块220使用词库225和其它必要的资源,包括如上所述语法、统计数据、干扰词目录等。经单词拆分模块分析未作为单字的余下的问询由过滤器530在输出531提供。
接着,如果需要,可施加其它过滤标准,如图5中一般用过滤器540表示。例如,当收集日语新词时,过滤器540可淘汰所有非平假名或片假名的单词或串,因为不知道的单词进行分析时,平假名是单词拆分困难主要发生的区域。类似地,过滤器540可淘汰所有非平假名或片假名的单词或串。这些是过滤器基于一种或更多日语字符类型限制的两个例子。更一般地说,基于日语字符类型限制,从候选目录淘汰问询,可包括淘汰基于分类问询的字符类型的组合的探试的问询。许多其它过滤标准也是可行的。
回到图4,得到的新词431的候选目录可进一步由人来过滤(也就是让人从候选目录选择或淘汰单词),如440所示。决定是否采用人工过滤是可选的,这将取决于特定的要求,以及工作负荷/效果和效益的权衡。本发明的方法和系统的一个优点是减少人识别新词的工作负荷,尤其对于粘着性语言。在这个环节增加人工过滤将会进一步增强效果,而不会增加过度繁重的工作负荷。
在一些人工过滤之后,余下的问询条目作为新词目录441提供。这些新词被添加入,或合并到用来在上述检索或搜索引擎的问询任务中进行单词拆分的定制或完整词库(在图2,3和5中均以词库225表示)。更新后的词库,增加了新词目录441,在图4中用450表示。然后该更新词库在前面所述的系统和方法的未来使用中将代替原来的词库225。并且,这些结果新词不但可供搜索引擎的单词拆分功能使用,还可用于其它任何包括单词拆分的自然语言分析。例如排印错误检测功能,替换建议功能(也就是“你是否指…?”搜索引擎的特点),等等。
在用本发明识别的新词更新词库后,上述系统可用来更新词库再标引全部文件。这样更新后的即新的索引就可替换原始索引,用于搜索引擎的问询分析。通过使用本发明的方法和系统来识别新词加入词库,实现了语言学分析结果的改善。在搜索方面,可实现更好的搜索结果。本发明极大地减少维护定制字库必须的工作负荷。结果也可并入下一代字库,减少了更新字库所需的工作负荷。
以下举一个日语的例子,来说明使用本发明的方法和系统识别新词的必要性,同时可作为在本例情况下本发明的方法和系统是如何实现的一个例子。设想一下新日语单词“らるく”(laruku)。这是一个流行乐队新出现的绰号(简称),因此它可能不会被加入系统词库。根据背景资料,在日本,该流行乐队的正式名称是“ラルクアンシエル”(片假名表示,读作“larukuansieru”)。字母记法是“L’ArcenCiel”。为说明这个例子,假设らるく事实上没有加入系统词库。
如果单词拆分器识别不出这个单词,会发生什么?
情况A:单词拆分器可能过度分解未知单词(这比下面讨论的情况B更普遍)。在情况A中:
●单词拆分结果将会是ら/る/く(la/ru/ku)或其它类似情况。
●如果单词拆分器将一个假名字符作为干扰词舍弃,那么所有内容或词块会被舍弃,这个条目根本不能被搜索。
●即使单词拆分器没有将假名字符作干扰词舍弃,就会有许多与ら或る或く(la或ru或ku)的一致,这对系统的表现是一个负面因素,可能导致相一致的文件排序出现问题。
●另外,在某些情况下,单词拆分器可能不会一直表现良好。假设一个文件包含短语らるくに会つた(larukuniatta,意思是“遇见laruku”)。这个短语的单词拆分结果会是ら/る/くに/会/つた(la/ru/kuni/at/ta),与らるく(la/ru/ku)不一致。
情况B:单词拆分器可能对未知单词分解不足(使用未知单词猜测机能)。在情况B中:
●单词拆分结果将会是らるく(laruku)或其它类似情况。这不是一个坏结果。
●然而,同样,单词拆分器在某些情况下可能不会一直表现良好。假设一个文件包含短语らるくに会つた(larukuniatta,意思是“遇见laruku”)。这个短语的单词拆分结果会是らる/くに/会/つた(laru/kuni/at/ta),与らるく(laruku)不一致。
如果这个单词被添加入定制词库(或合并入系统词库)会发生什么?在上述情况A和B中,都会获得希望的结果:
询问:らるく(laruku)→把らるく(laruku)作为一个单词。
在一个文件中:らるくに会つた(larukuniatta)→らるく/に/会/つた(laruku/ni/at/ta)
因此,识别这个单词作为新词加入词库是重要的。是否考虑一下这个单词被前面描述的过滤拾起的过程?
已知这是一个非常频繁的问询。这个问询足够短。这意味着这可能是一个单词,而不是复合词或短语。
当对此问询进行单词拆分时,存在两种情况,情况A和情况B。
情况A:单词拆分器可能过度分解未知单词(这比下面讨论的情况B更普遍):
●单词拆分结果将会是ら/る/く(la/ru/ku)或其它类似情况。
●如果单词拆分器将一个假名字符作为干扰词舍弃,那么此问询的大部分会作为干扰词舍弃,然后此条目无疑就是候选新词。
●如果单词拆分器没有将一个字符的假名作干扰词舍弃,则检查看该单词拆分结果是否是过小的假名词块。在这种情况下,这个问询同样是成为新词的合适候选者。通常,具有表意字符的短词块不会导致严重的搜索冲突。因此,这些情况可被排除。
情况B:单词拆分器对未知单词可能分解不足:
●单词拆分结果是らるく(laruku)。
●检查串らるく(laruku)是否在词库中。如果不在词库中,则此问询是作为新词加入词库的合适候选者,尤其当该问询全部由假名构成时。
尽管已通过参考特定实施例描述了本发明,本领域的熟练技术人员将会认识到,在不背离本发明的精神和范围的情况下可在形式和细节上作出改变。

Claims (20)

1.一种收集新词,添加到粘着性语言的词库的方法,其特征在于,所述方法包括:
获得提交至搜索引擎的问询日志;
将问询日志分类,获得分类的问询;
使用多重探试性标准过滤分类的问询,获得新词的候选目录;以及
添加新词候选目录上的单词至词库。
2.如权利要求1所述的方法,其特征在于,使用多重探试性标准过滤分类问询,获得新词的候选目录,还包括从候选目录淘汰长度超过预定阈长度的问询。
3.如权利要求2所述的方法,其特征在于,使用多重探试性标准过滤分类问询,获得新词的候选目录,还包括从候选目录淘汰问询日志中发生频度低于预定阈发生频度的问询。
4.如权利要求3所述的方法,其特征在于,使用多重探试性标准过滤分类问询,获得新词的候选目录,还包括从候选目录淘汰已经过单词拆分器分析被认为是单字的问询。
5.如权利要求4所述的方法,还包括人工过滤新词的候选目录以获得新词目录,其特征在于,把新词候选目录的单词添加至词库,包括添加来自新词目录增加单词。
6.如权利要求5所述的方法,其特征在于,把新词的候选目录的单词添加至词库,还包括把新词目录的单词添加至单词拆分器使用的词库,以获得更新的词库。
7.如权利要求5所述的方法,其特征在于,还包括使用更新的词库重新标引多种文件或站点。
8.如权利要求7所述的方法,其特征在于,还包括使用更新的词库实施搜索引擎问询分析。
9.如权利要求1所述的方法,其特征在于,所述粘着性语言是日语。
10.如权利要求9所述的方法,其特征在于,过滤多重探试性标准,获得新词的候选目录,还包括基于日语字符类型限制,从候选目录淘汰问询。
11.如权利要求10所述的方法,其特征在于,基于日语字符类型限制,从候选目录淘汰问询,还包括,淘汰非平假名或片假名字符串的问询。
12.如权利要求10所述的方法,其特征在于,基于日语字符类型限制,从候选目录淘汰问询,还包括,淘汰基于对分类的问询的字符类型的组合进行探试问询。
13.一种计算机可读媒体,该媒体具有计算机可执行指令,用于实现以下步骤,其特征在于,所述步骤包括:
对提交到粘着性语言的搜索引擎的问询日志进行分类,获得分类的问询;以及
使用多重探试性标准过滤分类问询,以获得用于增加到词库的新词的候选目录,其中,使用多重探试性标准过滤分类问询,还包括从新词候选目录淘汰长度超过预定阈长度的问询。
14.如权利要求13所述的计算机可读媒体,其特征在于,使用多重探试性标准过滤分类问询,还包括从候选目录淘汰问询日志中发生频度低于预定阈发生频度的问询。
15.如权利要求14所述的计算机可读媒体,其特征在于,使用多重探试性标准过滤分类问询,还包括还包括从候选目录淘汰已经单词拆分器分析被认为是单字的问询。
16.如权利要求15所述的计算机可读媒体,其特征在于,还具有计算机可执行的指令,用于实现包括把新词候选目录的单词添加至词库的步骤。
17.一种新词收集系统,用于把从问询日志提交至搜索引擎收集粘着性语言的新词添加到词库,其特征在于,所述系统包括:
问询日志分类部件,配置成对问询日志进行分类,以获得分类的问询;以及
探试性过滤部件,配置成使用多重探试性标准过滤分类的问询,以获得新词的候选目录。
18.如权利要求17所述新词收集系统,其特征在于,所述探试性过滤部件还包括问询长度过滤器,配置成从新词候选目录淘汰长度超过预定阈长度的问询。
19.如权利要求18所述新词收集系统,其特征在于,所述探试性过滤部件还包括问询频度过滤器,配置成从新词候选目录淘汰问询日志中发生频度低于预定阈发生频度的问询。
20.如权利要求19所述新词收集系统,其特征在于,所述探试性过滤部件还包括单词拆分结果过滤器,配置从新词候选目录淘汰已经单词拆分器分析被认为是单字的问询。
CN200510053170.7A 2004-03-03 2005-03-03 用于单词拆分的新词收集方法和系统 Expired - Fee Related CN1664818B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/792,443 2004-03-03
US10/792,443 US7424421B2 (en) 2004-03-03 2004-03-03 Word collection method and system for use in word-breaking

Publications (2)

Publication Number Publication Date
CN1664818A true CN1664818A (zh) 2005-09-07
CN1664818B CN1664818B (zh) 2015-08-05

Family

ID=34911853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510053170.7A Expired - Fee Related CN1664818B (zh) 2004-03-03 2005-03-03 用于单词拆分的新词收集方法和系统

Country Status (4)

Country Link
US (1) US7424421B2 (zh)
JP (1) JP2005251206A (zh)
KR (1) KR101122942B1 (zh)
CN (1) CN1664818B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words
WO2011009270A1 (zh) * 2009-07-24 2011-01-27 中兴通讯股份有限公司 输入法词库中添加自定义词的方法、装置及文字输入设备
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
US8407236B2 (en) 2008-10-03 2013-03-26 Microsoft Corp. Mining new words from a query log for input method editors
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
CN101641687B (zh) * 2007-03-19 2014-04-30 微软公司 用于生成定制的用户体验的方法和系统
CN106021430A (zh) * 2016-05-16 2016-10-12 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统
CN106847265A (zh) * 2012-10-18 2017-06-13 谷歌公司 用于使用搜索查询信息的言语识别处理的方法和系统
CN107391504A (zh) * 2016-05-16 2017-11-24 华为技术有限公司 新词识别方法与装置
WO2019223259A1 (zh) * 2018-05-25 2019-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置
CN113761170A (zh) * 2020-09-15 2021-12-07 北京沃东天骏信息技术有限公司 更新语料库的方法和装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149388A1 (en) * 2003-12-30 2005-07-07 Scholl Nathaniel B. Method and system for placing advertisements based on selection of links that are not prominently displayed
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
US7752200B2 (en) * 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
WO2007029348A1 (ja) * 2005-09-06 2007-03-15 Community Engine Inc. データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US7624099B2 (en) * 2005-10-13 2009-11-24 Microsoft Corporation Client-server word-breaking framework
US7941418B2 (en) * 2005-11-09 2011-05-10 Microsoft Corporation Dynamic corpus generation
US8176128B1 (en) * 2005-12-02 2012-05-08 Oracle America, Inc. Method of selecting character encoding for international e-mail messages
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
US20080027911A1 (en) * 2006-07-28 2008-01-31 Microsoft Corporation Language Search Tool
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US8078604B2 (en) 2007-03-19 2011-12-13 Microsoft Corporation Identifying executable scenarios in response to search queries
US7797311B2 (en) * 2007-03-19 2010-09-14 Microsoft Corporation Organizing scenario-related information and controlling access thereto
KR101465769B1 (ko) * 2007-06-14 2014-11-27 구글 인코포레이티드 사전 단어 및 어구 판정
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US7877404B2 (en) * 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
CN101477542B (zh) * 2009-01-22 2013-02-13 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
JP4831787B2 (ja) * 2009-02-09 2011-12-07 日本電信電話株式会社 引用検出装置、そのプログラム及び記録媒体
CN102270048B (zh) * 2010-06-03 2016-04-20 北京搜狗科技发展有限公司 一种名词输入的方法及系统
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US10198506B2 (en) * 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
US9190054B1 (en) * 2012-03-31 2015-11-17 Google Inc. Natural language refinement of voice and text entry
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US8996355B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US8996353B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8990068B2 (en) 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
CN104076940A (zh) * 2013-03-27 2014-10-01 北京千橡网景科技发展有限公司 一种辅助输入方法和设备
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
CN111737950B (zh) * 2020-08-27 2020-12-08 北京安帝科技有限公司 一种电厂区域设备异常判断方法
US11868341B2 (en) * 2020-10-15 2024-01-09 Microsoft Technology Licensing, Llc Identification of content gaps based on relative user-selection rates between multiple discrete content sources
CN113111655B (zh) * 2021-05-12 2023-01-31 数库(上海)科技有限公司 分离词典的构建方法、基于分离词典的分词方法及设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH04222055A (ja) * 1990-12-25 1992-08-12 Nippon Telegr & Teleph Corp <Ntt> 個人シソーラス作成支援装置
JPH081642B2 (ja) * 1991-01-28 1996-01-10 株式会社ピーエフユー キーワード検索方式
JPH09204437A (ja) * 1996-01-26 1997-08-05 Fuji Xerox Co Ltd 文書検索装置
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US6035268A (en) * 1996-08-22 2000-03-07 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
CN1143232C (zh) * 1998-11-30 2004-03-24 皇家菲利浦电子有限公司 正文的自动分割
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
CN1360261A (zh) * 2001-11-29 2002-07-24 上海复旦光华信息科技股份有限公司 旁路式数据库访问侦听与还原的方法
US7113950B2 (en) * 2002-06-27 2006-09-26 Microsoft Corporation Automated error checking system and method

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101641687B (zh) * 2007-03-19 2014-04-30 微软公司 用于生成定制的用户体验的方法和系统
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words
US8407236B2 (en) 2008-10-03 2013-03-26 Microsoft Corp. Mining new words from a query log for input method editors
WO2011009270A1 (zh) * 2009-07-24 2011-01-27 中兴通讯股份有限公司 输入法词库中添加自定义词的方法、装置及文字输入设备
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
CN106847265A (zh) * 2012-10-18 2017-06-13 谷歌公司 用于使用搜索查询信息的言语识别处理的方法和系统
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
CN106021430A (zh) * 2016-05-16 2016-10-12 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统
CN107391504A (zh) * 2016-05-16 2017-11-24 华为技术有限公司 新词识别方法与装置
CN106021430B (zh) * 2016-05-16 2018-01-19 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统
CN107391504B (zh) * 2016-05-16 2021-01-29 华为技术有限公司 新词识别方法与装置
WO2019223259A1 (zh) * 2018-05-25 2019-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置
CN113761170A (zh) * 2020-09-15 2021-12-07 北京沃东天骏信息技术有限公司 更新语料库的方法和装置

Also Published As

Publication number Publication date
US20050197829A1 (en) 2005-09-08
CN1664818B (zh) 2015-08-05
US7424421B2 (en) 2008-09-09
KR101122942B1 (ko) 2012-03-20
KR20060043381A (ko) 2006-05-15
JP2005251206A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
CN1664818A (zh) 用于单词拆分的新词收集方法和系统
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
CN1109982C (zh) 检索相关超文本文件的超文本文件检索装置
US8407236B2 (en) Mining new words from a query log for input method editors
CN1912872A (zh) 一种提取新词的方法和系统
CN108027814B (zh) 停用词识别方法与装置
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
JP7060027B2 (ja) Faq整備支援装置、faq整備支援方法、及びプログラム
CN1573923A (zh) 用于用户模型化以增强对命名实体识别的系统和方法
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1758211A (zh) 把输入提供给计算设备的有效多方式的方法
CN1503164A (zh) 信息处理装置、用于实现该信息处理装置的程序
US20100185438A1 (en) Method of creating a dictionary
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN1542648A (zh) 用于词分析的系统和方法
CN103226601A (zh) 一种图片搜索的方法和装置
CN1193304C (zh) 切分非切分语言的输入字符序列的方法
CN104462552A (zh) 问答页面核心词提取方法和装置
WO2017088126A1 (zh) 获取未登录词的方法与装置
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
JP2009217406A (ja) 文書検索装置及び方法、並びに、プログラム
JP7272540B2 (ja) 情報提供システム、情報提供方法、及びデータ構造
CN109933707B (zh) 一种基于搜索引擎的主题语料构建方法及系统
CN107704461B (zh) 一种基于数据分析的智能路况信息检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150729

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150729

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150805

Termination date: 20160303

CF01 Termination of patent right due to non-payment of annual fee