CN108073294B

CN108073294B - 一种智能组词方法和装置、一种用于智能组词的装置

Info

Publication number: CN108073294B
Application number: CN201611004532.8A
Authority: CN
Inventors: 费腾
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2021-11-02
Anticipated expiration: 2036-11-11
Also published as: CN108073294A

Abstract

本发明实施例提供了一种智能组词方法和装置、一种用于智能组词的装置，其中的方法具体包括：接收用户的输入内容；基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；将所述组词结果中的待组词模板字符串替换为对应的待组词汇。本发明实施例可以在节省存储空间的情况下，提高多元关系的覆盖率、以及组词的成功率。

Description

一种智能组词方法和装置、一种用于智能组词的装置

技术领域

本发明涉及计算机信息输入技术领域，特别是涉及一种智能组词方法和装置、一种用于智能组词的装置。

背景技术

目前，涉及交互的设备，通常需要用户通过输入法系统将自己的操作意图与设备交互识别。例如，用户可以输入输入串或语音，然后由输入法系统依据其预置的标准映射规则将该输入串或识别语音，将输入内容转换为相应语言的候选项并展示，进而将用户选择的候选项上屏。

当词库中不存在直接命中输入串的词条时，输入法系统可以触发智能组词功能。现有的智能组词方案为查找二元库中的二元关系，依据二元关系的命中情况计算每个组词方案中词汇串的路径概率，并将具有最大路径概率的组词方案作为首选项返回给用户。其中，二元关系是指词汇与词汇之间的搭配关系，如“天气-好热”、“我-知道”、“喜欢-你”、“十万-八千”等可以具有二元关系。智能组词功能非常重要，智能组词结果的好坏将直接决定输入法系统的质量，也将直接影响到用户的体验。

然而，发明人在实施本发明实施例的过程中发现，对于包含数词、量词或者副词的智能组词，其往往需要非常多的二元关系，这对于二元库的尺寸和存储空间存在较高的要求。以数词的智能组词为例，需要存储“一万-一千”、“两万-一千”、“三万-一千”、…、“九万-一千”、“两万-两千”、…“九万-九千”、“一千-一百”、…、“九千-九百”等大量的二元关系，这将使二元库占用较大的存储空间。

另外，在实际应用中，二元库中存储的二元关系往往是通过统计学习的方式得到，通常存储的二元关系很难保证能够覆盖所有的情况，这样将导致智能组词失败的问题。例如，若二元库中未存储“九万-八千”，则输入串“jiuwanbaqian”对应的词汇“九万”和“八千”将无法命中二元库中的二元关系，进而导致智能组词失败。

发明内容

鉴于上述问题，本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的智能组词方法、智能组词装置及用于智能组词的装置，本发明实施例可以在节省存储空间的情况下，提高多元关系的覆盖率、以及组词的成功率。

为了解决上述问题，本发明公开了一种智能组词方法，包括：

接收用户的输入内容；

基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；

利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；

将所述组词结果中的待组词模板字符串替换为对应的待组词汇。

可选地，所述利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词的步骤，包括：

依据所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇，在多元关系数据中进行查找；

若查找命中，则依据所述多元关系数据中记录的多元关系，得到对应的组词结果。

可选地，所述输入内容包括：输入串，则所述方法还包括：

对所述输入串进行切分，以得到对应的切分结果；

在词库中进行查找，以得到与所述切分结果相匹配的词汇，作为所述输入串对应的待组词汇。

可选地，所述方法还包括：

依据所述切分结果对应的待组词汇与所述词性模板的匹配信息，针对所述切分结果设置对应的优先级。

可选地，所述输入内容还包括：所述输入串对应的上下文，则所述输入内容对应的待组词汇包括：所述输入串对应的待组词汇和所述上下文。

可选地，通过如下步骤获取所述多元关系数据：

获取符合词性模板的多元关系，将符合所述词性模板的多元关系作为多元关系数据进行保存。

可选地，通过如下步骤获取所述多元关系数据：

从预置语料中获取相邻出现的多个词汇；所述多个词汇中包括：预设词性词；

按照词性模板，将所述多个词汇包含的预设词性词解析为相应的模板字符串；

针对所述多个词汇，将对应的模板字符串之间、或者模板字符串与词汇之间的多元关系作为多元关系数据进行保存。

可选地，所述基于词性模板，解析所述输入内容的步骤，包括：

从所述输入内容对应的待组词汇中提取预设词性词；

按照所述预设词性词对应的词性模板，将所述预设词性词解析成与其词性相应的待组词模板字符串。

可选地，所述预设词性词包括：第一预设词性词和/或第二预设词性词。

可选地，通过如下步骤构建所述词性模板：

将预设词性词与其他词汇之间的修饰关系、或者预设词性词与预设词性词之间的修饰关系作为词性模板。

另一方面，本发明公开了一种智能组词装置，包括：

内容接收模块，用于接收用户的输入内容；

解析模块，用于基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；

组词模块，用于利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；以及

替换模块，用于将所述组词结果中的待组词模板字符串替换为对应的待组词汇。

可选地，所述组词模块包括：

查找子模块，用于依据所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇，在多元关系数据中进行查找；

组词子模块，用于查找命中时，依据所述多元关系数据中记录的多元关系，得到对应的组词结果。

可选地，所述输入内容包括：输入串，则所述装置还包括：

切分模块，用于对所述输入串进行切分，以得到对应的切分结果；

词库查找模块，用于在词库中进行查找，以得到与所述切分结果相匹配的词汇，作为所述输入串对应的待组词汇。

可选地，所述装置还包括：

优先级设置模块，用于依据所述切分结果对应的待组词汇与所述词性模板的匹配信息，针对所述切分结果设置对应的优先级。

可选地，所述装置还包括：

第一保存模块，用于获取符合词性模板的多元关系，将符合所述词性模板的多元关系作为多元关系数据进行保存。

可选地，所述装置还包括：

相邻词汇获取模块，用于从预置语料中获取相邻出现的多个词汇；所述多个词汇中包括：预设词性词；

词汇解析模块，用于按照词性模板，将所述多个词汇包含的预设词性词解析为相应的模板字符串；

第二保存模块，用于针对所述多个词汇，将对应的模板字符串之间、或者模板字符串与词汇之间的多元关系作为多元关系数据进行保存。

可选地，所述解析模块包括：

提取子模块，用于从所述输入内容对应的待组词汇中提取预设词性词；

解析子模块，用于按照所述预设词性词对应的词性模板，将所述预设词性词解析成与其词性相应的待组词模板字符串。

可选地，所述装置还包括：

词性模板构建模块，用于将预设词性词与其他词汇之间的修饰关系、或者预设词性词与预设词性词之间的修饰关系作为词性模板。

再一方面，本发明公开了一种用于智能组词的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收用户的输入内容；

本发明实施例包括以下优点：

本发明实施例采用模板字符串描述词汇之间的多元关系，并利用包含模板字符串的多元关系数据对输入内容对应的待组词汇进行组词；由于本发明实施例的模板字符串与词性模板相应，而该词性模板表示与词性相关的通用修饰属性，故该词性模板对应的模板字符串可以适用于所涉及词汇的所有修饰场景，例如，模板字符串“NUM_万”可以适用于“万”的所有修饰场景，模板字符串“NUM_千克”可以适用于“千克”的所有修饰场景，模板字符串“ADV_喜欢”可以适用于“喜欢”的所有修饰场景等等，模板字符串“NUM_MEA”表示数词与量词之间所有修饰场景，例如，“NUM”可以表示任意的数词，故在待组词汇所包含的数词为“一”、“二”、…“十”、“百”等任意数词的情况下；“MEA”可以表示任意的量词，故在待组词汇所包含的量词为“公斤”、“千克”、…“公里”、“牛顿”等任意量词的情况下，本发明实施例均可以成功地完成组词，故本发明实施例能够提高多元关系的覆盖率、以及组词的成功率。

并且，相对于现有方案需要存储“一万-一千”、“两万-一千”、“三万-一千”、…、“九万-一千”、“两万-两千”、…“九万-九千”、“一千-一百”、…、“九千-九百”等大量的二元关系，本发明实施例可以在存储包含“NUM_万”的一对多元关系的情形下成功地完成组词，因此能够节省多元关系所需的存储空间。

附图说明

图1是本发明的一种智能组词方法实施例一的步骤流程图；

图2是本发明的一种智能组词方法实施例二的步骤流程图；

图3是本发明的一种智能组词装置实施例的结构框图；

图4是本发明的一种用于智能组词的装置900的框图；及

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

方法实施例一

参照图1，示出了本发明的一种智能组词方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101、接收用户的输入内容；

步骤102、基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；

步骤103、利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；

步骤104、将所述组词结果中的待组词模板字符串替换为对应的待组词汇。

本发明实施例可以应用于各种输入方式的输入法系统，例如上述输入方式具体可以包括键盘符号、手写信息、语音输入等输入方式，即用户可以通过编码字符串、手写属性特征等输入上屏内容。以语音输入方式为例，输入法系统可以采集用户输入的语音信号，将该语音信号转换为文本信息，对该文本信息切分为待组词汇进行组词。下面主要以编码字符串(以下简称输入串)的输入方式为例进行说明，其它输入方式相互参见即可。

在输入法系统领域，无论是中文、日文、韩文还是其它语言的输入法系统，都是把用户的输入串转换成相应语言的候选项，然后由用户来选择输出至应用程序的内容，这里通过上屏操作输出至应用程序的内容也即上屏内容。其中，在把用户的输入串转换成相应语言的候选项的过程中，可以直接从词库中查找输入串对应的词条，若查找命中，则可以将查找得到的词条作为候选项，例如，直接在词库中查找得到输入串“nihao”或者“tianqihenhao”对应的“你好”或者“天气很好”等词条。可选地，本发明实施例的词库具体可以包括：系统词库、用户词库、细胞词库、云词库等等，本发明实施例对于具体的词库不加以限制。

然而，在实际应用中，很多原因将会导致词库中不存在直接命中输入串的词条，可选地，在用户欲输入的词汇数量较多(例如短语或者长句)、或者欲输入之前未输入过的内容时，可能存在词库中不存在输入串直接命中的词条的情况，此种情况下输入法系统可以触发智能组词功能。例如，用户欲要通过输入串“bawanliangqiansanbaisishi”输入“八万两千三百四十”，或者，欲要通过输入串“jiuwanbaqian”输入“九万八千”，或者，欲要通过输入串“qingqingdifangxia”输入“轻轻地放下”时，或者，欲要通过“genghaodilijiebenfam”输入“更好地理解本发明”时，词库中可能不存在这些输入串直接命中的词条。

现有的智能组词方案利用二元库中的二元关系(词汇与词汇之间的搭配关系)，针对输入串进行组词。然而，对于包含数词、量词或者副词的智能组词，其往往需要非常多的二元关系，这不仅对于二元库的尺寸和存储空间存在较高的要求，而且往往会因为二元关系的覆盖率不足而导致智能组词失败。以数词的智能组词为例，二元库中需要存储所有数词之间的搭配关系，若存储的覆盖率不够，将会导致智能组词失败。假设二元库中虽然存储有“一万-一千”、“两万-一千”、“三万-一千”、…、“九万-一千”、“两万-两千”、…“九万-九千”、“一千-一百”、…、“九千-九百”等大量的二元关系，但若未存储“九万-八千”，则在输入串为“jiuwanbaqian”时，也会出现智能组词失败的情况。

针对数词、量词或者副词的智能组词存在的上述问题，本发明实施例创造性地提出词性模板，针对该词性模板预置对应的模板字符串，并采用该模板字符串描述词汇之间的多元关系。其中，该词性模板表示与词性相关的通用修饰属性。

可选地，可以将预设词性词与其他词汇之间的修饰关系、或者预设词性词与预设词性词之间的修饰关系作为词性模板。例如，该词性模板具体可以包括：数词模板、数量词模板、数词量词模板或者副词模板等。其中，数词模板用于约束数词的属性，例如，数词“一万”、…“十万”等可以对应同一个数词模板，其对应的模板字符串可以为“NUM_万”，数词“一千”、…“九千”等可以对应同一个数词模板，其对应的模板字符串可以为“NUM_千”。数量词用于约束数词和量词的属性，例如，数量词“一个”、…“十个”等可以对应同一个数量词模板，其对应的模板字符串可以为“NUM_个”，数量词“一千克”、…“十千克”等可以对应同一个数量词模板，其对应的模板字符串可以为“NUM_千克”等。数词量词模板可用于约束数词与量词之间的所有修饰场景，其对应的模板字符串可以为“NUM_MEA”，其中，“NUM”可以代表任意的数词，“MEA”可以代表任意的量词。副词模板可用于约束副词及其所修饰的动词或者形容词的的属性，例如，副词+动词“轻轻地放下”、“非常喜欢”、“更好地理解”、“不喜欢”、“马上就走”等，对应的模板字符串可以为“ADV_放下”、“ADV_喜欢”、“ADV_喜欢”、“ADV_走”等。可以看出，词性模板对应的模板字符串可以适用于所涉及词汇的所有修饰场景，例如，“NUM_万”可以适用于“万”的所有修饰场景，“NUM_千克”可以适用于“千克”的所有修饰场景，“ADV_喜欢”可以适用于“喜欢”的所有修饰场景，“NUM_MEA”可以适用于任意数词与任意量词之间的修饰场景，其中，“MEA”可用于表示“公斤”、“千克”、…“公里”、“牛顿”等任意量词。

可以理解，上述数词模板、数量词模板、数词量词模板或者副词模板只是作为本发明的可选实施例，实际上本领域技术人员可以根据实际应用需求，设置所需的词性模板，如副词动词模板“ADV_VERB”等，其中，“VERB”可用于表示“喜欢”、“爱”、“恨”、“生气”、“惊讶”等任意动词。

另外，以上主要以中文的词性模板为例对词性模板进行了说明，可以理解，本领域技术人员可以根据实际应用需求，对于除中文外的其他语言设置，片假、平假的词性设置对应的词性模板，针对法文的词性设置对应的词性模板等等，可以理解，任意语言的任意词性之间的修饰关系均在本发明实施例的词性模板的保护范围之内。

本发明实施例中，多元关系数据可用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系，也即，本发明实施例的多元关系数据中可以包含模板字符串。

本发明实施例可以提供获取上述多元关系数据的多种技术方案：

技术方案1

技术方案1可以对现有的多元库进行改造，以得到对应的多元关系数据。具体地，获取符合词性模板的多元关系，将符合所述词性模板的多元关系作为多元关系数据进行保存，其中，可以按照该词性模板对应的模板字符串对该多元关系进行存储。

在实际应用中，上述多元库具体可以包括：系统多元库、用户多元库等；上述多元关系具体可以包括：二元或者二元以上的关系。本发明实施例主要以二元关系为例进行说明，二元以上的关系相互参照即可。本发明实施例中，二元关系主要用于反映两个元素邻接使用的概率(以下简称连接概率)。现有方案中二元关系中的两个元素均为词汇，而本发明实施例中二元关系的两个元素可以包括：词汇对应的模板字符串。例如，多元库中记录有二元关系“十万-八千”，该二元关系符合数词模板，则可以按照数词模板，分别对该二元关系中的两个词汇“十万”和“八千”进行处理，以得到二元关系数据“NUM_ 万-NUM_千”。同理，多元库中记录有二元关系“非常-喜欢”，则可以分别按照副词模板、或者副词动词模板将该二元关系作为多元关系数据进行存储，相应的多元关系数据可以为：“ADV_喜欢”、“ADV_VERB”。

技术方案2

技术方案2可以对预置语料进行分析，以得到对应的多元关系数据。具体地，可以从预置语料中获取相邻出现的多个词汇；所述多个词汇中具体可以包括：预设词性词；按照词性模板将所述多个词汇包含的预设词性词解析为相应的模板字符串；针对所述多个词汇，将对应的模板字符串之间、或者模板字符串与词汇之间的多元关系作为多元关系数据进行保存。

在实际应用中，上述预置语料具体可以包括：基于网络爬虫技术获取的互联网语料库、云计算输入法积累的语料库；另外，所述互联网语料库可以为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库等等。其中，上述云计算输入法积累的语料库可以源自全网用户的历史输入行为数据，可以理解，本发明实施例对具体的预置语料不加以限制。

本发明实施例中，预设词性词可用于表示词性为预设词性的词汇，可选地，该预设词性词具体可以包括：第一预设词性词，如数词“十万”、“八千”等，在实际应用中，可以从多个词汇中查找第一预设词性词，然后按照词性模板将所述多个词汇包含的该第一预设词性词解析为相应的模板字符串。例如，预置语料中相邻出现了“十万”和“八千”，则可以按照数词模板，分别对该两个词汇“十万”和“八千”进行解析处理，以得到二元关系“NUM_万- NUM_千”。又如，相邻出现了“十万”、“个”、“冷笑话”，则可以按照数词模板对其中的“十万”进行解析处理，最终得到三元关系“NUM_万-个-冷笑话”。

或者，该预设词性词可以包括：相邻出现的第一预设词性词和第二预设词性词，如数词+量词、副词+动词、或者副词+形容词等。在实际应用中，可以首先从多个词汇中查找第一预设词性词，然后判断与该第一预设词性词相邻的词汇是否为第二预设词性词，若是，则按照词性模板将所述多个词汇包含的该第一预设词性词和第二预设词性词解析为相应的模板字符串。可选地，该第一预设词性词可以为数词、副词等，对应的第二预设词性词可以为量词、动词、形容词等。例如，预置语料中相邻出现了数词“五十”、量词“斤”和名词“大米”，则可以按照词性模板将“五十斤”解析为“NUM_斤”，并建立“NUM_斤”与“大米”之间的二元关系。又如，预置语料中相邻出现了副词“轻轻的”、动词“放下”和名词“你”，则可以按照词性模板将“轻轻的放下”解析为“ADV_放下”，并建立“ADV_放下”与“你”之间的二元关系。再如，预置语料中相邻出现了副词“很”、动词“喜欢”和名词“你”，或者，预置语料中相邻出现了副词“非常”、动词“喜欢”和名词“你”，则均可以按照词性模板将“很喜欢”或者“非常喜欢”解析为“ADV_喜欢”，并建立“ADV_喜欢”与“你”之间的二元关系。可以理解，本领域技术人员可以根据实际应用需求，采用所需的第一预设词性词和第二预设词性词，本发明实施例对于具体的第一预设词性词和第二预设词性词不加以限制。

另外，上面主要以包含模板字符串的二元关系为例对本发明实施例的多元关系数据进行了说明，实际上，本发明实施例的多元关系数据还可以涉及二元以上的关系，如三元关系“NUM_万-NUM_千-NUM_百”，如四元关系“NUM_万-NUM_千-NUM_百-NUM_十”等。

另外，上述对现有的多元库进行改造的技术方案1、以及对预置语料进行分析的技术方案2只是作为本发明实施例的获取多元关系数据的可选技术方案，实际上，本领域技术人员还可以根据实际应用需求，采用获取多元关系数据的其他可选技术方案，例如，针对常用的预设词性词，收集与其相邻的被修饰词，并按照词性模板将该预设词性词及其被修饰词解析为相应的模板字符串，进而以此建立多元关系等等。

本发明实施例中，可选的是，所述输入内容可以包括：输入串，则本发明实施例可以在词库中查找得到该输入串对应的待组词汇。例如，输入串为“bawanliangqiansanbaisishi”，则对应的待组词汇可以包括：“八万”、“两千”、“三百”、“四十”等。

在本发明的另一种可选实施例中，上述输入内容除了包括输入串外，还可以包括：该输入串对应的上下文。该上文可以适用于用户通过多次输入连贯性内容的场景。例如，用户欲要输入“八万两千三百四十”，其首先输入并上屏了“八万”，又接着输入“liangqian”，则可以将“八万”与“liangqian”对应的词汇作为待组词汇。该下文可以适用于用户编辑已上屏内容的情形。例如，用户首先输入了“今天天气晴朗”，接着将光标移动至“晴朗”之前，并键入了输入串“feich”，则本发明实施例可以将“feich”对应的词汇与其下文“晴朗”进行组词。可以理解，本发明实施例对于上下文对应的具体组词场景不加以限制。

本发明实施例中，部分待组词汇或者全部待组词汇可能符合上述词性模板，则可以将部分待组词汇或者全部待组词汇解析为对应的待组词模板字符串。在本发明的一种可选实施例中，上述基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇的步骤102，具体可以包括：从所述输入内容对应的待组词汇中提取预设词性词；按照所述预设词性词对应的词性模板，将所述预设词性词解析成与其词性相应的待组词模板字符串。也即，本发明实施例可以仅仅针对预设词性词或者其对应的修饰词进行解析，进而实现预设词性词相关的智能组词。

可选地，上述预设词性词可以包括：第一预设词性词和/或第二预设词性词，也即，上述预设词性词可以包括第一预设词性词，或者，所述预设词性词可以包括：相邻出现的第一预设词性词和第二预设词性词。

在本发明的另一种可选实施例中，上述利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词的步骤，具体可以包括：依据所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇，在多元关系数据中进行查找；若查找命中，则依据所述多元关系数据中记录的多元关系，得到对应的组词结果。可选地，可以分别将多个待组词模板字符串与多元关系的各内容进行匹配，若均匹配成功，则说明查找命中；或者，可以分别将待组词模板字符串及其相邻的待组词汇与多元关系的各内容进行匹配，若均匹配成功，则说明查找命中。例如，待组词模板字符串为“ADV_喜欢”，其相邻的待组词汇为“你”，则可以分别将“ADV_喜欢”和“你”与多元关系的各内容进行匹配。或者，若相邻的待组词模板字符串为“NUM_万”和“NUM_千”，则可以分别将“NUM_万”和“NUM_ 千”与多元关系的各内容进行匹配。

在本发明的再一种可选实施例中，还可以依据待组词汇与词性模板之间的匹配信息，对待组词汇或者待组词汇对应的组词结果进行排序。例如，输入串“liangwanyiqian”对应的待组词汇可以包括：“两万”、“两碗”、“两晚”、“晾完”、“一千”、“以前”、“已签”等，由于待组词汇“两万”和“两碗”均命中了数词量词模板“NUM_MEA”，故可以具有较高的优先级。

综上，本发明实施例的智能组词方法，采用模板字符串描述词汇之间的多元关系，并利用包含模板字符串的多元关系数据对输入内容对应的待组词汇进行组词；由于本发明实施例的模板字符串与词性模板相应，而该词性模板表示与词性相关的通用修饰属性，故该词性模板对应的模板字符串可以适用于所涉及词汇的所有修饰场景，例如，模板字符串“NUM_万”可以适用于“万”的所有修饰场景，模板字符串“NUM_千克”可以适用于“千克”的所有修饰场景，模板字符串“ADV_喜欢”可以适用于“喜欢”的所有修饰场景等等，例如，“NUM”可以表示任意的数词，故在待组词汇所包含的数词为“一”、“二”、…“十”、“百”等任意数词的情况下，本发明实施例均可以成功地完成组词，故本发明实施例能够提高多元关系的覆盖率、以及组词的成功率。

方法实施例二

参照图2，示出了本发明的一种智能组词方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201、接收用户的输入内容；上述输入内容可以包括：输入串、或者该输入串及其对应的上下文；

步骤202、对该输入串进行切分，以得到对应的切分结果；

步骤203、在词库中进行查找，以得到与该切分结果相匹配的词汇，作为该输入串对应的待组词汇；

步骤204、基于词性模板，解析所述输入串、或者该输入串及其上下文对应的待组词汇，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；

步骤205、利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；

步骤206、将所述组词结果中的待组词模板字符串替换为对应的待组词汇。

在实际应用中，可以按照输入串的规则，对输入串进行切分。若该输入串为拼音串，则可以按照音节规则进行切分。一个输入串可能具有一种或者多种切分方案，其中的每种切分方案对应的切分结果均可以包括一个或多个子串。例如，输入串“bawanliangqian”可被切分为“ba’wan’liang’qian”，输入串“fangan”可被切分为“fang’an”或者“fan’gan”。

在实际应用中，可以在例如系统词库、用户词库的词库中进行查找，以得到各子串对应的待组词汇。如“ba’wan”对应的待组词汇可以包括：“八万”、“拔完”，“liang’qian”对应的待组词汇可以包括：“两千”、“梁倩”等等。

在本发明的一种可选实施例中，还可以依据所述切分结果对应的待组词汇与所述词性模板的匹配信息，针对所述切分结果设置对应的优先级。其中，在匹配信息为匹配，也即切分结果对应的待组词汇与所述词性模板相匹配时，可以针对切分结果设置较高的优先级；在匹配信息为不匹配，也即切分结果对应的待组词汇与所述词性模板不相匹配时，可以针对切分结果设置较低的优先级。上述切分结果的优先级可用于确定切分结果对应待组词汇的质量，例如，优先级越高则对应的质量越高；或者，上述切分结果的优先级可用于确定切分结果对应待组词汇的组词路径的路径得分，例如，优先级越高则对应的路径得分越高。

本发明实施例在对待组词词汇解析为相应的模板字符串后，可以将模板字符串和/或待组词汇进行两两组合，以得到对应的多种组词路径。例如，“bawanliangqian”对应的组词路径可以包括：“NUM_万+NUM_千”、“NUM_ 万+梁倩”、“拔完+NUM_千”、“拔完梁倩”等等。

对于各组词路径，均可依据其包含的模板字符串和/或待组词汇，在本发明实施例的多元关系数据中进行查找，若查找命中，则可以直接将该多元关系作为对应的组词结果；或者，可以依据该多元关系对应的连接概率计算整个组词路径的路径概率，并将路径概率最大的组词路径作为组词结果。

需要说明的是，由于本发明实施例在组词前对待组词汇解析为模板字符串，故在组词后需要将组词结果中模板字符串替换为原有的待组词汇。

另外，需要说明的是，本发明实施例可以依据替换后的组词结果输出该输入串对应的候选项。其中，若输入内容包括输入串，则可以直接将替换后的组词结果作为候选项进行输出。若输入内容包括输入串及其上下文，则可以在替换后的组词结果中去除该上下文后，再输出对应的候选项。

为使本领域技术人员更好地理解本发明实施例，在此提供本发明的一种智能组词方法示例，该示例具体可以包括如下步骤：

步骤S1、接收输入串“bawanliangqiansanbaisishi”；

步骤S2、对该输入串进行切分，以得到切分结果“ba'wan'liang'qian'san'bai'si'shi”；

步骤S3、在词库中进行查找，以得到与上述切分结果对应的待组词汇：“八万”，“两千”，“三百”、“四十”等，

步骤S4、对上述待组词汇解析为对应的模板字符串，以得到“NUM_万”、“NUM_千”、“NUM_百”、“NUM_十”，

步骤S5、利用本发明实施例的多元关系数据，对上述模板字符串进行组词得到组词结果“NUM_万+NUM_千+NUM_百+NUM_十”；

步骤S6、将该组词结果中的模板字符串替换为原有的待组词汇，得到最终的组词结果“八万两千三百四十”。

在实际应用中，本发明实施例的多元关系数据中可以记录“NUM_万”和“NUM_千”之间的二元关系、以及“NUM_千”和“NUM_百”之间的二元关系，这样，无论待组词汇为“九万三千两百”、“八万四千三百”，还是其它的满足x 万x千x百的所有词汇，本发明实施例均可以成功地完成组词，并且本发明实施例可以仅仅存储两个二元关系，这相对于现有方案，能够大大节省存储空间。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图3，示出了本发明的一种输入装置实施例的结构框图，具体可以包括：内容接收模块301、解析模块302、组词模块303和替换模块304。

其中，上述内容接收模块301，用于接收用户的输入内容；

上述解析模块302，用于基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；

上述组词模块303，用于利用多元关系数据对所述待组词模板字符串和/ 或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；以及

上述替换模块304，用于将所述组词结果中的待组词模板字符串替换为对应的待组词汇。

可选地，所述组词模块303可以包括：

可选地，所述输入内容可以包括：输入串，则所述装置还可以包括：

可选地，所述装置还可以包括：

可选地，所述输入内容还可以包括：所述输入串对应的上下文，则所述输入内容对应的待组词汇可以包括：所述输入串对应的待组词汇和所述上下文。

可选地，所述装置还可以包括：

相邻词汇获取模块，用于从预置语料中获取相邻出现的多个词汇；所述多个词汇中可以包括：预设词性词；

可选地，所述解析模块302可以包括：

可选地，所述预设词性词可以包括：第一预设词性词和/或第二预设词性词。

可选地，所述装置还可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于智能组词的装置900的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O) 的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908 和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器 (SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910 包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件 914还可以检测装置900或装置900一个组件的位置改变，用户与装置900 接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD 图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914 还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在 NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由智能终端的处理器执行时，使得智能终端能够执行一种智能组词方法，所述方法包括：接收用户的输入内容；基于词性模板，解析所述输入内容，得到与所述词性模板相匹配的待组词模板字符串以及待组词汇；利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系；将所述组词结果中的待组词模板字符串替换为对应的待组词汇。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器) 和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质 1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质 1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种智能组词方法、一种智能组词装置和一种用于智能组词的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能组词方法，其特征在于，包括：

接收用户的输入内容；

将所述组词结果中的待组词模板字符串替换为对应的待组词汇；

其中，所述基于词性模板，解析所述输入内容，包括：

从所述输入内容对应的待组词汇中提取预设词性词；

2.根据权利要求1所述的方法，其特征在于，所述利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词的步骤，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述输入内容包括：输入串，则所述方法还包括：

对所述输入串进行切分，以得到对应的切分结果；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述输入内容还包括：所述输入串对应的上下文，则所述输入内容对应的待组词汇包括：所述输入串对应的待组词汇和所述上下文。

6.根据权利要求1或2所述的方法，其特征在于，通过如下步骤获取所述多元关系数据：

7.根据权利要求1或2所述的方法，其特征在于，通过如下步骤获取所述多元关系数据：

从预置语料中获取相邻出现的多个词汇，所述多个词汇中包括：预设词性词；

8.根据权利要求1所述的方法，其特征在于，所述预设词性词包括：第一预设词性词和/或第二预设词性词。

9.根据权利要求1或2所述的方法，其特征在于，通过如下步骤构建所述词性模板：

10.一种智能组词装置，其特征在于，包括：

内容接收模块，用于接收用户的输入内容；

替换模块，用于将所述组词结果中的待组词模板字符串替换为对应的待组词汇；

其中，所述解析模块包括：

11.根据权利要求10所述的装置，其特征在于，所述组词模块包括：

12.根据权利要求10所述的装置，其特征在于，所述输入内容包括：输入串，则所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求12所述的装置，其特征在于，所述输入内容还包括：所述输入串对应的上下文，则所述输入内容对应的待组词汇包括：所述输入串对应的待组词汇和所述上下文。

15.根据权利要求10所述的装置，其特征在于，所述装置还包括：

16.根据权利要求10或11所述的装置，其特征在于，所述装置还包括：

17.根据权利要求10所述的装置，其特征在于，所述预设词性词包括：第一预设词性词和/或第二预设词性词。

18.根据权利要求10或11所述的装置，其特征在于，所述装置还包括：

19.一种用于智能组词的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收用户的输入内容；

利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，以得到对应的组词结果；其中，所述多元关系数据用于记录模板字符串之间、或者模板字符串与词汇之间的多元关系，所述模板字符串与词性模板相应；

其中，所述基于词性模板，解析所述输入内容，包括：

从所述输入内容对应的待组词汇中提取预设词性词；

20.根据权利要求19所述的装置，其特征在于，所述利用多元关系数据对所述待组词模板字符串和/或所述待组词模板字符串及其相邻的待组词汇进行组词，包括：

21.根据权利要求19或20所述的装置，其特征在于，所述输入内容包括：输入串，则所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述输入串进行切分，以得到对应的切分结果；

22.根据权利要求21所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

23.根据权利要求21所述的装置，其特征在于，所述输入内容还包括：所述输入串对应的上下文，则所述输入内容对应的待组词汇包括：所述输入串对应的待组词汇和所述上下文。

24.根据权利要求19或20所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

25.根据权利要求19或20所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

26.根据权利要求19所述的装置，其特征在于，所述预设词性词包括：第一预设词性词和/或第二预设词性词。

27.根据权利要求19或20所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

28.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至9中一个或多个所述的方法。