CN105260396B

CN105260396B - 字词检索方法和装置

Info

Publication number: CN105260396B
Application number: CN201510591319.0A
Authority: CN
Inventors: 刘联东; 杨天行
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2019-09-03
Anticipated expiration: 2035-09-16
Also published as: CN105260396A

Abstract

本发明提出一种字词检索方法和装置，该字词检索方法包括：接收用户输入的查询词，并将所述查询词转换为格式化文本请求；对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果；根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户。该方法能够基于自然语言理解满足用户不同的字词检索需求，提升用户体验。

Description

字词检索方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种字词检索方法和装置。

背景技术

人们在传统方式下使用纸质的词典进行字词检索，随着信息化的发展，人们逐步使用电子词典进行字词检索。现有技术中，电子词典只能回答字词实体请求，比如，用户在搜索中输入“璇”，现有的电子字典能够返回相关结果。但是，用户查询目的不一样，可能是为了了解这个字解释、或者组词、或者五笔等信息。当用户输入的是“璇的组词”，“璇的五笔”，“璇的同音字”后，现有电子字典无法回答。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种字词检索方法，该方法可以基于自然语言理解满足用户不同的字词检索需求，提升用户体验。

本发明的另一个目的在于提出一种字词检索装置。

为达到上述目的，本发明第一方面实施例提出的字词检索方法，包括：接收用户输入的查询词，并将所述查询词转换为格式化文本请求；对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果；根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户。

本发明第一方面实施例提出的字词检索方法，通过对查询词进行自然语言理解，可以解析出用户不同的需求，从而根据用户不同的需求检索出相应的检索结果，满足用户不同的字词检索需求，提升用户体验。

为达到上述目的，本发明第二方面实施例提出的字词检索装置，包括：交互界面模块，用于接收用户输入的查询词，并将所述查询词转换为格式化文本请求；自然语言理解模块，用于对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果；数据检索模块，用于根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户。

本发明第二方面实施例提出的字词检索装置，通过对查询词进行自然语言理解，可以解析出用户不同的需求，从而根据用户不同的需求检索出相应的检索结果，满足用户不同的字词检索需求，提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的字词检索方法的流程示意图；

图2是本发明实施例中自然语言理解的流程示意图；

图3是本发明另一实施例提出的字词检索方法的流程示意图；

图4是本发明实施例中语音输入的查询词及检索结果的示意图；

图5是本发明另一实施例提出的字词检索装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的字词检索方法的流程示意图，该方法包括：

S11：接收用户输入的查询词，并将所述查询词转换为格式化文本请求。

其中，用户可以以自然语言进行查询词的输入。

查询词的形式可以是：文本形式、语音形式，或者，图像形式。

当查询词是语音形式或图像形式时，可以先进行转换，以获取文本形式的查询词。例如，当查询词是语音形式时，进行语音识别，得到文本形式的查询词，或者，当查询词是图像形式时，进行图像识别，得到文本形式的查询词。

在获取到文本形式的查询词后，可以将其转换为格式化文本请求，以方便后续处理。根据实际需要的不同，可以设置不同的规则进行格式化以得到格式化文本请求。例如，格式化时采用的规则是去除文本形式的查询词中的冗余信息，冗余信息例如包括：“为什么”，“请问”，“标点符号”这些字符，另外，在格式化时例如还可以进行繁简体字转化等。

S12：对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果。

参见图2，所述对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果，包括：

S21：对格式化文本请求进行切词，得到格式化文本请求中的分词。

例如，用户输入的查询词是“璇的五笔”，则在上述的格式化转换时，例如可以去掉其中的“的”，得到格式化文本请求“璇五笔”，对该格式化文本请求进行分词后可以得到“璇”、“五笔”这两个分词。

又例如，用户输入的查询词是“一丘之貉的最后一个字的五笔”，则类似上述的格式化和分词处理后，可以得到“一丘之貉”、“最后一个字”、“五笔”这三个分词。

S22：根据预先建立的标注词典，对分词进行标注，得到分词对应的标注结果。

例如，标注结果包括：分词被识别为实体信息或属性信息，属性信息例如包括：实体间关系信息以及其余的属性信息，进一步的，当分词被识别为实体信息时还可以细分为实体类型是字、词、成语等。另外，当分词被识别为实体信息时，标注结果中还可以包含分词对应的身份标识(ID)信息，或者，当分词被识别为属性信息时，标注结果中还可以包含属性信息的名称。

假设一个分词是A，实体信息例如A是一个字、词或成语等；实体间关系信息是指字词实体之间的语义关系，如A是同义词、反义词等，也可以称为边；其余的属性信息例如A是：拼音、五笔、笔画信息等。

在标注时，例如可以预先建立不同类别的词典，如实体词典、属性词典等，对应每个分词，通过在不同词典内查询可以确定分词被识别为实体信息或属性信息，例如，对应分词“璇”，经过查询，其在实体词典中查询到，则确定“璇”被识别为实体信息。当然，可以理解的是，实体词典可以进一步分为字的词典、词组的词典、成语的词典等，从而可以实现更细的标注。

另外，为了更好地唯一表述字词实体以及实体间的语义关系，词典内实体有唯一的身份标识(ID)信息，因此还可以在标注结果中标注ID信息。

例如，对应分词“璇”，可以在字的词典中查询到，并且如果“璇”在字的词典中的ID信息是“id_123”，那么可以确定“璇”被识别为实体信息，且实体类型是字，且ID信息是id_123。

其余分词也可以类似处理。因此，经过标注词典的标注后，可以获取分词与对应的标识结果。

例如，对应“璇的五笔”这一查询词，得到的标注结果包括：[(璇、id_123、word)，(五笔、wubi、attribute)]。其中，“璇”和“五笔”是分词，以及，“璇”被识别为实体信息，且实体类型是“字(word)”，ID信息是id_123；“五笔”被识别是属性信息(attribute)，且属性名称是wubi。

又例如，对应“一丘之貉的最后一个字的五笔”这一查询词，得到的标识结果包括：[(一丘之貉，id_133，idiom),(最后一个字，last_word，tie),(五笔，wubi、attribute)]。其中，“一丘之貉”、“最后一个字”、“五笔”是分词，以及，“一丘之貉”被识别为实体信息，且实体类型是“成语(idiom)”，ID信息是id_133；“最后一个字”被识别为属性信息，具体是实体间关系信息，实体间关系信息也可以称为关系词(tie)，且属性名称(具体为关系词的名称)是last_word。

S13：根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户。

其中，可以预先建立关系检索引擎和实体检索数据库，关系检索引擎用于根据标注结果中的实体间关系信息确定要检索的实体信息；实体检索数据库用于根据标注结果中的实体信息和/或属性信息，确定检索结果。如果标注结果中没有实体间关系信息，则可以直接根据实体检索数据库获取检索结果；如果标注结果中存在实体间关系信息，可以先根据关系检索引擎确定出要检索的实体，再从实体检索数据库中获取相应的检索结果。

具体的，如果所述标注结果中存在实体间关系信息，在预先建立的关系检索引擎中，根据实体信息和实体间关系信息检索到要检索的实体信息，以及，在预先建立的实体检索数据库中，根据检索到的要检索的实体信息和标注结果中的属性信息，获取对应的检索结果；或者，如果所述标注结果中不存在实体间关系信息，在预先建立的实体检索数据库中，根据标注结果中的实体信息和/或属性信息，获取对应的检索结果。

本实施例中，通过对查询词进行自然语言理解，可以解析出用户不同的需求，从而根据用户不同的需求检索出相应的检索结果，满足用户不同的字词检索需求，提升用户体验。

图3是本发明另一实施例提出的字词检索方法的流程示意图，该方法包括：

S31：交互界面模块接收用户输入的查询词。

如图3所示，查询词以文本形式或语音形式为例。用户可以以自然语言进行查询词的输入。

S32：交互界面模块根据查询词得到格式化文本请求，并发送给自然语言理解模块。

例如，如果查询词是语音形式，则交互界面先将其转换为文本形式。

在查询词是文本形式或由其他形式转换为文本形式后，交互界面可以根据预设规则进行格式化，从而得到格式化文本请求。格式化时例如去除冗余信息进行繁简字转换等。

S33：自然语言理解模块根据预先建立的标注词典，对格式化文本请求进行标注，得到标注结果，并将标注结果发送给数据检索模块。

具体标注过程可以参见上一实施例，在此不再赘述。

例如，对应“璇的五笔”这一查询词，得到的标注结果包括：[(璇、id_123、word)，(五笔、wubi、attribute)]。

又例如，对应“一丘之貉的最后一个字的五笔”这一查询词，得到的标识结果包括：[(一丘之貉，id_133，idiom),(最后一个字，last_word，tie),(五笔，wubi、attribute)]。

S34：数据检索模块接收到标注结果后，判断标注结果中是否存在实体间关系信息，若是，执行S35，否则，执行S36。

例如，如果标注结果中存在一个或一些分词对应的类别是“tie”时，表明存在实体间关系信息，否则不存在。

例如，对应“璇的五笔”的标注结果中不存在实体间关系信息，对应“一丘之貉的最后一个字的五笔”的标注结果中存在实体间关系信息。

S35：根据预先建立的关系检索引擎，根据标注结果中的实体信息和实体间关系信息确定要检索的实体。

例如，关系检索引擎中记录不同实体间的关系索引(也可以称为图索引)，通过该关系索引可以获取相应的要检索的实体。例如，标注结果中的实体信息是“一丘之貉”，实体间关系信息是“最后一个字”，则通过关系索引，可以确定要检索的实体是“貉”。

S36：根据预先建立的实体检索数据库，根据标注结果中的实体信息或确定出的实体信息，以及标注结果中的属性信息获取检索结果。

其中，实体检索数据库中可以记录实体、对应的属性及相应的具体内容，因此，通过检索实体检索数据库可以确定相应的检索结果。

例如，对应“璇的五笔”，在标注结果中获取的实体信息是“璇”，属性信息是“五笔”，则可以在实体检索数据库中检索，得到“璇”的“五笔”的具体内容作为检索结果。

又例如，对应“一丘之貉的最后一个字的五笔”，通过关系检索引擎可以确定要检索的实体是“貉”，在标注结果中获取的属性信息是“五笔”，则可以在实体检索数据库中检索，得到“貉”的“五笔”的具体内容作为检索结果。

S37：数据检索模块将检索结果发送给交互界面模块，通过交互界面将检索结果展示给用户。

数据检索模块获取检索结果后，将检索结果发送给交互界面模块，以展示给用户。

可以理解的是，数据检索模块获取检索结果后，还可以对检索结果进行查询结果处理，如排序等，之后再返回给交互界面显示。

需要说明是，通过上述的自然语言理解及检索，不仅可以获取到满足用户不同需求的检索结果，还可以解决语音输入歧义问题。

在手机和穿戴设备场景中，语音输入存在许多读音不准，识别不清，多音字混淆的问题。比如用户语音输入“xuán”，由于同音字太多，语音识别装置无法判断用户的意图，在智能手表等穿戴设备中用户无法快速选择候选结果。语音识别装置一般只会提供最高频的单字，如“旋”字作为结果。

而应用本实施例的方法时，如图4所示，用户可以以语音输入的查询词41是“王字旁的xuán”，语音装置在获取到该输入后，可以根据上述流程进行自然语言理解和数据检索，找到相应的检索结果42返回给用户。

另外，本实施例的方法可以应用在多种应用场景，例如，移动版应用程序、网页版应用程序、搜索引擎、智能机器人。移动版应用程序例如安装在移动设备(如手机)或穿戴设备的电子词典，网页版应用程序例如在线打开的电子词典等。

本实施例中，用户可以以自然语言输入查询词，通过自然语言方式查询更符合用户习惯，减少用户的操作路径和检索信息时间，提高用户体验。本实施例支持语音输入，相比传统字典，提供了语音输入的功能，并且通过自然语言理解解决语音输入中的歧义问题。满足更多应用场景，手机、穿戴设备上的语言输入、字词查询和问答机器人等应用场景。

图5是本发明另一实施例提出的字词检索装置的结构示意图，该装置50包括：交互界面模块51、自然语言理解模块52、数据检索模块53。

交互界面模块51，用于接收用户输入的查询词，并将所述查询词转换为格式化文本请求；

其中，用户可以以自然语言进行查询词的输入。

一些实施例中，所述交互界面模块51还用于：

当所述查询词是语音形式的查询词时，对语音形式的查询词进行语音识别，识别为文本形式的查询词；或者，

当所述查询词是图像形式的查询词时，对图像形式的查询词进行图像识别，识别为文本形式的查询词。

自然语言理解模块52，用于对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果；

一些实施例中，所述自然语言理解模块52具体用于：

对格式化文本请求进行切词，得到格式化文本请求中的分词；

根据预先建立的标注词典，对分词进行标注，得到分词对应的标注结果。

例如，标注结果包括：分词被识别为实体信息或属性信息，属性信息例如包括：实体间关系信息或其余的属性信息，进一步的，当分词被识别为实体信息时还可以细分为实体类型是字、词、成语等。另外，当分词被识别为实体信息时，标注结果中还可以包含分词对应的身份标识(ID)信息，或者，当分词被识别为属性信息时，标注结果中还可以包含属性信息的名称。

例如，对应分词“璇”，可以在字的词典中查询到，并且如果“璇”在字的词典中的ID信息是“id_123”，那么还可以确定“璇”被识别为实体信息，且实体类型是字，且ID信息是id_123。

例如，对应“璇的五笔”这一查询词，得到的标注结果包括：[(璇、id_123、word)，(五笔、wubi、attribute)]。其中，“璇”和“五笔”是分词，以及，“璇”被识别为实体信息，且实体类型是是“字(word)”，ID信息是id_123；“五笔”被识别是属性信息(attribute)，且属性名称是wubi。

数据检索模块53，用于根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户。

一些实施例中，所述数据检索模块53具体用于：

如果所述标注结果中存在实体间关系信息，在预先建立的关系检索引擎中，根据实体信息和实体间关系信息检索到要检索的实体信息，以及，在预先建立的实体检索数据库中，根据检索到的要检索的实体信息和标注结果中的属性信息，获取对应的检索结果；或者，

如果所述标注结果中不存在实体间关系信息，在预先建立的实体检索数据库中，根据标注结果中的实体信息和/或属性信息，获取对应的检索结果。

而应用本实施例的方法时，如图4所示，用户可以以语音输入“王字旁的xuán”，语音装置在获取到该输入后，可以根据上述流程进行自然语言理解和数据检索，找到相应的检索结果返回给用户。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种字词检索方法，其特征在于，包括：

接收用户输入的查询词，并将所述查询词转换为格式化文本请求；

对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果；所述标注结果包括：所述格式化文本请求中的分词被识别为实体信息或者属性信息；所述属性信息包括：实体间关系信息以及其他属性信息；所述实体信息包括：实体类型和身份标识；所述实体类型包括：字、词、或者成语；所述实体间关系信息指实体之间的语义关系；

根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户；

所述根据所述标注结果进行数据检索，得到检索结果，包括：

如果所述标注结果中存在实体间关系信息，在预先建立的关系检索引擎中，根据实体信息和实体间关系信息检索到要检索的实体信息，以及，在预先建立的实体检索数据库中，根据检索到的要检索的实体信息和标注结果中的属性信息，获取对应的检索结果；所述标注结果中的实体信息与所述要检索的实体信息为不同的实体信息；或者，

2.根据权利要求1所述的方法，其特征在于，所述查询词包括：文本形式的查询词，或者，语音形式的查询词，或者，图像形式的查询词。

3.根据权利要求2所述的方法，其特征在于，所述将所述查询词转换为格式化文本请求之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法应用于如下项中的一项或多项中：

移动版应用程序、网页版应用程序、搜索引擎、智能机器人。

6.一种字词检索装置，其特征在于，包括：

交互界面模块，用于接收用户输入的查询词，并将所述查询词转换为格式化文本请求；

自然语言理解模块，用于对所述格式化文本请求进行自然语言理解，获取对所述格式化文本请求的标注结果；所述标注结果包括：所述格式化文本请求中的分词被识别为实体信息或者属性信息；所述属性信息包括：实体间关系信息以及其他属性信息；所述实体信息包括：实体类型和身份标识；所述实体类型包括：字、词、或者成语；所述实体间关系信息指实体之间的语义关系；

数据检索模块，用于根据所述标注结果进行数据检索，得到检索结果，以将检索结果展示给用户；

所述数据检索模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述查询词包括：文本形式的查询词，或者，语音形式的查询词，或者，图像形式的查询词，所述交互界面模块还用于：

8.根据权利要求6所述的装置，其特征在于，所述自然语言理解模块具体用于：