CN107943792B

CN107943792B - 一种语句分析方法、装置及终端设备、存储介质

Info

Publication number: CN107943792B
Application number: CN201711195450.0A
Authority: CN
Inventors: 甘骏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2021-11-23
Anticipated expiration: 2037-11-24
Also published as: CN107943792A

Abstract

本发明实施例公开了一种语句分析方法、装置及终端设备，其中，所述方法包括：如果得到待分析语句，利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别；利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取出至少一个实体词；根据所述确定的实体词和所述确定的分类类别，获取每个实体词的类别统计信息。采用本发明实施例，可以较为准确、快捷地确定出在某个语句下的多个实体词所属的分类类别。

Description

一种语句分析方法、装置及终端设备、存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语句分析方法、装置及终端设备、存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是希望能够设计出一种智能机器，该智能机器能以人类的方式做出某些反应，例如能够与人类流畅地进行智能交谈。在AI领域，需要对自然语言进行分析处理，此时涉及到对自然语言中的实体词进行分析，准确地对其进行归类统计，并将统计结果提供给具体的应用，以便于这些应用能够基于归类统计的结果准确地了解人类用户的意图，从而实现智能化。

在对实体词进行归类统计时，建立对实体词的专用分类模型能够对实体词进行较好的分类，但是在对语句中的实体词进行分类时，建立的这些实体词分类模型的分类方式效率低下。

发明内容

本发明实施例提供一种语句分析方法、装置及终端设备，可以快捷完成语句中实体词的类别统计。

一方面，本发明实施例提供了一种语句分析方法，包括：

获取待分析语句；

利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别；

利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词；

根据所述提取的至少一个实体词和所述至少一个分类类别，获取每个实体词的类别统计信息。

另一方面，本发明实施例还提供了一种语句分析装置，包括：

获取模块，用于获取待分析语句；

第一确定模块，用于利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别；

第二确定模块，用于利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词；

处理模块，用于根据所述提取的至少一个实体词和所述至少一个分类类别，获取每个实体词的类别统计信息。

再一方面，本发明实施例还提供了一种智能设备，包括：存储装置和处理器，其中，所述存储装置，存储有程序指令；所述处理器，调用所述程序指令，用于执行所述的语句分析方法。

又一方面，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被处理器执行时，用于实现所述的语句分析方法。

本发明实施例能够基于用于对语句的分类模型和用于对语句进行实体词识别的识别模型来对语句进行分析，能够较为准确地得到该语句所属的一个或者多个分类类别，而确定的这些类别也作为语句中的实体词的类别，进而对实体词进行类别统计信息的确定，较为准确、快捷地确定出在该语句下的多个实体词所属的一个或者多个分类类别及其类别统计信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的语句分析过程的流程示意图；

图2是本发明实施例的训练语句分类模型的方法流程示意图；

图3是本发明实施例的生成实体词识别模型的方法流程示意图；

图4是本发明实施例的一种语句分析方法的流程示意图；

图5是本发明实施例的训练语句分类模型的方法的流程示意图；

图6是本发明实施例的一种语句分析装置的结构示意图；

图7是本发明实施例的一种智能设备的结构示意图。

具体实施方式

本发明实施例中在对自然语言进行分析处理时，可以对实体词进行分类，例如进行基于先验概率的分类，根据分类结果实现对自然语言进行智能识别、智能分析，并将识别、分析的结果应用到上层应用，以便于更好地实现人工智能(Artificial Intelligence，AI)。本发明实施例能够基于语句分析来对某个语句中未被标注的实体词进行分析，计算这些实体词属于不同类别的先验概率，进而完成对这些实体词的分类。其中，所述实体词是指描述某一具体事物名称的词语，例如某个人的人名、某个歌曲名、某个电影名等等词语。

本发明实施例可以首选构建并更新得到用于对语句进行分类的语句分类模型，并构建得到用于对语句进行识别确定语句中包括的一个或者多个实体词的实体词识别模型。在一个实施例中，可以基于用户在浏览器上发起搜索时得到的搜索记录数据来训练得到语句分类模型，首先可对于在浏览器上产生的大量的搜索记录数据中采样10％或者更多数据作为训练数据，在一个实施例中可以构建NB(朴素贝叶斯)分类器模型，基于所述的训练数据对NB分类器模型中的多个初始分类模型进行训练更新，得到语句分类模型。而实体词识别模型则可以通过一种可以快速构建词库、并从普通语句中提取词库中包含的词的算法来构建得到，在该实体词识别模型中配置了一个或者多个词库。在一个实施例中，可以利用AC(Aho-Corasick)自动机算法(是一种多模匹配算法)，对备选实体词进行处理，构建词库。

请参见图1，示出了本发明实施例的语句分析过程的流程示意图，首先，在S101中获取搜索记录数据，所述搜索记录数据至少包括用户在搜索时所使用的搜索关键句，例如搜索记录数据为用户输入的“变形精灵好看吗”的搜索关键句。在S102中，对搜索记录数据进行采样，并对采样得到的搜索记录数据中的搜索关键句进行标注。在一个实施例中，可采用人工标注的方式对搜索记录数据中包括的搜索关键句进行标注，即对搜索关键句人工标注其所属的分类类别，例如，对于上述的“变形精灵好看吗”的搜索关键句，人工标注该搜索关键句的分类类别为视频类别。对搜索记录数据中的搜索关键句的标注也可采用其他标注方式，在一个实施例中，可以在依据搜索关键句进行搜索，并在得到的搜索结果页面上发起点击操作后，判断点击操作选择的目标网页，该目标网页的网页相关信息为该搜索关键句的搜索关联信息，并进一步再根据判断确定的网页的类型来确定搜索关键句的类别，完成搜索关键句的标注，例如，如果确定点击操作后选择的网页属于视频网页(例如该网页的网址为常见的视频网站的网址时，确定其为视频网页)，则确定该搜索记录数据中包括的搜索关键句为视频类别。目标网页的网页相关信息包括该目标网页上包括的主题名称或者网址。

在一个实施例中，还可以基于对搜索关键句的语义分析，如果语言分析结果确定所述搜索关键句中包括指定内容，则根据该指定内容所属的类别对所述搜索关键句进行标注。例如对于搜索关键句“变形精灵这个电影好看吗”，经过简单的语义分析，即可确定该搜索关键句包含特定词汇“电影”，该搜索关键句属于该特定词汇所对应的视频类别。

在一个实施例中，搜索记录数据还可以包括发起搜索的搜索关键句和搜索关联信息，所述搜索关联信息可以是根据以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面上包括的标题信息确定的信息，所述搜索关联信息也可以是根据以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面的网址信息确定的信息。所述搜索关联信息可以作为所述搜索关键句的标注信息，根据所述搜索关联信息可以对所述搜索关键句进行标注，例如，根据搜索关键句“变形精灵好看吗”，得到的搜索结果页面中，被用户点击选择的网页页面上的标题为“变形精灵，高清视频在线观看”，则可以认为“变形精灵好看吗”被标注为视频类别；或者，根据搜索关键句“变形精灵好看吗”，得到的搜索结果页面中，被用户点击选择的网页页面的网址为预置的视频网站的网址，则可以认为“变形精灵好看吗”被标注为视频类别。

如图1所示，在经过S102得到上述的搜索记录数据后，基于搜索记录数据对分类器中的初始语句分类模型进行训练，得到语句分类模型。在一个实施例中，训练过程包括：获取搜索记录数据中的搜索关键句，将该获取的搜索关键句作为初始语句分类模型的输入，由初始语句分类模型对搜索关键句进行分类识别，得到分类结果，如果分类结果所表示的分类类别与标注的分类类别不相同或不相近似，则表明该初始语句分类模型对该搜索关键句的分类不够准确，需要对初始语句分类模型中的参数进行调整，然后再采用调整后的初始语句分类模型对所述搜索关键句进行分类，直到分类结果所表示的分类类别与标注的分类类别相同或相近似，则可以采用下一个搜索记录数据对分类器中的初始语句分类模型进行训练。在一个实施例中，所述标注的分类类别可以是人工对搜索记录数据中的搜索关键句进行标识的，也可以是基于搜索记录数据中的搜索关联信息确定的分类类别。经过大量的搜索记录数据对分类器中的初始语句分类模型进行训练和更新后，得到最终的可供用户使用的语句分类模型。需要说明的是，语句分类模型可以在使用的过程中被一直更新，以便于更为精确地进行语句的分类。

在一个实施例中，如图2所示，训练得到语句分类模型的步骤包括：在S201中获取搜索记录数据，在S202中进行采样处理，得到用于进行训练的搜索记录数据，其中采样得到的搜索记录数据包括三个部分，即：搜索关键句query(查询词)、标题信息title(点击页面的标题)、网址信息url(点击页面的网址)，可以基于分类类别通过指定url来过滤采样得到所有搜索记录数据中的10％的数据，并对采样得到10％的数据进行标注。采样过程可以使用url库进行搜索记录数据的过滤，url库包括需要标注的目标分类类别的代表性url库。例如，对于视频类别，主要包括v.qq.com(一个提供视频的视频网站的网址)，yiqilaikandianying.com(另一个提供视频的视频网站的网址)等，音乐类别有y.qq.com(一个提供音乐的音乐网站的网址)等。基于url过滤掉与这些url不相关的搜索记录数据，可以加强对标注的搜索关键句的数据质量，使同一网址下的搜索关键句之间更具相关性。在S203中对采样得到的搜索记录数据进行标注，得到搜索记录数据中搜索关键句的分类类别。在S204中根据搜索关键句和分类类别完成模型训练，得到语句分类模型。

实体词识别模型是基于大量的实体词构成的实体词库构建得到的识别模型。在一个实施例中，如图3所示，在S301获取各种类别的实体词库，这些实体词库包括大量的实体词，可以是用户输入的，或者从一些专用于展示词语的网站中搜索得到的，例如某个汉语词典网站。这些实体词库中的实体词可以是各种类别的词，在S302进行去重复的过滤处理，也就是说，在不同类别下可能存在同一个实体词，此时，实体词库中只保留一个实体词，例如：实体词“晓龙飞天”，有可能在小说类别中存在该实体词、在视频类别中也存在该实体词，在游戏类别中也存在该实体词，此时虽然包括三个不同类别的实体词，但在实体词识别模型仅需要一个“晓龙飞天”，并不会存在三个。在S303中基于过滤去重复之后的实体词库和初始自动机模型，构建实体词识别模型。初始自动机模型可以为一个AC自动机模型，其能够基于大量的实体词利用多模匹配算法构建实体词库，并具备从普通语句中提取出实体词库中包含的实体词的功能。在本发明实施例中，实体词识别模型仅用于基于实体词库从语句中找出需要确定其所属类别的实体词，而并不需要基于实体词库来对语句进行分类。

得到了上述的语句分类模型和实体词识别模型后，在S103中，通过语句分类模型对搜索记录数据中的搜索关键句进行分类，得到所述搜索关键句的一个或者多个分类类别；在S104中通过实体词识别模型从搜索记录数据的搜索关键句中识别出实体词，识别出的实体词是在实体词库中存在的词语。在S105中进行实体词到一个或者多个分类类别的统计，得到实体词的类别统计信息，并最终在S106中输出各个实体词的类别统计信息。本实施例中，所述类别统计信息包括实体词属于某个分类类别的概率。

在一个实施例中，得到的分类类别包括多个，例如可以包括第一类别和第二类别，识别出的实体词包括第一实体词和第二实体词，在所述S105中的统计主要是指：统计第一实体词属于第一类别的概率、第一实体词属于第二类别的概率、第一实体词属于第二类别的概率、以及第二实体词属于第二类别的概率，即包括了四个实体词到分类类别的“实体-类别对”。统计的概率可以是一个先验概率。在一个实施例中，所述统计得到的概率可以根据实体词被认为是某个分类类别的次数来确定，例如，在过去一周，使用包括“晓龙飞天”这个实体词进行网页搜索的次数有1000次，其中，基于用户点开的url和/或页面的title，确定“晓龙飞天”属于小说类别的次数为300次，属于视频类别的次数为200次，而属于游戏类别的次数为500次，则可以认为，实体词“晓龙飞天”属于小说类别的概率为30％、属于视频类别的概率为20％，而属于游戏类别的概率为50％。得到这些统计信息后，可以根据当前的统计信息提供给上层应用使用，例如，在用户与对话机器人对话的应用，用户输入了“晓龙飞天”的相关信息后，对话机器人可以基于游戏类的话题来与用户对话聊天。

在一个实施例中，如果根据实体词和分类类别，无法获取该实体词的类别统计信息，或者实体词在两个分类类别之间根据类别统计信息无法明显区分获取该实体词所属的分类类别，则将该实体词归类为无法分类的类别，例如归类为“其他other”类别。例如，如果实体词“晓龙飞天”属于小说类别的概率为35％，属于游戏类别的概率为40％，而属于视频类别的概率为25％，由于属于小说类别的概率为35％和属于游戏类别的概率为40％之间的差值小于预设的阈值例如10％，则认为无法区分“晓龙飞天”是属于小说类别还是游戏类别，因此，可以将实体词“晓龙飞天”归类为“其他other”类别。这样可以保证所有的实体词都能够完成分类，并且对标记为其他类别的实体词，上层应用仍然可以进行特殊的应用。例如，当对话机器人检测到这类处于其他类别中的实体词时，可以回复“我不明白你想说什么”的对话语句。

本发明实施例能够基于用于对语句的分类模型和用于对语句进行实体词识别的识别模型来对语句进行分析，能够较为准确地得到该语句所属的一个或者多个分类类别，而确定的这些类别也是语句中的实体词的类别，从而较为准确、快捷地确定出在该语句下的多个实体词所属的一个或者多个分类类别，提高了对实体词的分类效率。并且，本发明实施例实际上是直接基于语句的分类模型完成了实体词的分类统计，相比于直接构建基于实体词的分类模型时需要清楚地确定各个实体的词义、词长等，构建基于语句的分类模型更为快捷、准确。

再请参见图4，是本发明实施例的一种语句分析方法的流程示意图，本发明实施例的所述语句分析方法可以由智能终端或者服务器来执行。本发明实施例的所述方法可以包括如下步骤。

S400：获取待分析语句。在一个实施例中，所述S400可以包括：接收搜索行为数据，并从所述搜索行为数据中确定出待分析语句。确定出的待分析语句主要用于进行后续的检索处理。在对所述待分析语句进行下述的语句分析处理后，可以根据分析处理的结果从网络或者各类服务器中搜索到与待分析语句相关的内容。当然，在其他实施例中，所述待分析语句也可以是从网络中直接提取得到的，通过对待分析语句的语句分析，并存储这些待分析语句各个实体词的分析结果，进行其他操作，例如对话机器人可以基于分析结果来找到合适的对话语句。

所确定的待分析语句可以是搜索行为数据构成的语句，也可以是根据获取策略从搜索行为数据中提取的部分数据构成的语句。例如用户在浏览器的搜索页面上输入的“我想听李国华的屋檐水”，获取的待分析语句可以是“李国华的屋檐水”。

S401：利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别。所述待分析语句可以是从浏览器上接收到的用户输入的用于搜索网页数据的搜索关键句，也可以是用户在运行某些应用时输入的语句，例如，用户在与AI机器人对话时输入的语句。在接收到带分析语句后，即可同时或者不同时调用语句分类模型和下述实体词识别模型对所述待分析语句进行分析处理。

在S401中，所述语句分类模型可以分析确定出指定的多个分类类别，例如，根据某个具体上层应用的需要，可以实现视频、音乐、游戏、小说等类别的分类。还可以定义其他类别来将不能分类的待分析语句或者除语句分类模型指定的分类类别外的其他分类均认为是其他类别。

所述语句分类模型是根据各个指定分类类别的大量的训练语句训练得到的，对语句分类模型的训练、训练语句的来源等可参考上述实施例中相关内容的描述。经过训练后的语句分类模型能够对待分析语句进行分类，确定该待分类语句所属的类别。例如，可以对“李国华的屋檐水”这句待分析语句进行分类，得到该待分析语句有可能属于“音乐”、“视频”两个分类类别。

S402：利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词。所述实体词识别模型配置有一个或者多个实体词库，能够从待分析语句中提取出实体词库中包含的词。在一个实施例中，所述实体词识别模型对待分析语句进行实体词拆分，得到多个初始词，再判断每一个初始词是否被记录在一个或者多个实体词库中，如果某个初始词被记录在实体词库中，则认为该初始词是待分析语句的一个实体词，对所有的初始词进行相同的判断，将不存在于实体词库的初始词删除，出现在实体词库中而未被删除的初始词作为所述待分析语句的实体词。

在初步得到实体词后，可以认为初步得到的实体词为初始词，还可以按照筛选规则对初始词进行筛选，在一个实施例中，可以按照筛选规则对得到的初始词进行筛选，将没有包含关系、词长度满足长度条件的初始词确定为所述待分析语句的实体。

在一个实施例中，所述没有包含关系是指：所确定的任何两个实体词之间，按照字的排列顺序对应依次进行比较，没有连续两个或者多个相同的字。或者，所述的没有包含关系可以是指任何两个实体词之间都没有一个或者两个或者多个相同的字。

在一个实施例中，所述的词长度满足长度条件可以是指筛选出的实体词所包含的字的个数要达到一个数量阈值，在一个实施例中，可以将数量阈值设为1，即筛选出的实体词的字的个数均为大于1的词，也就是说，不对字进行分类以及概率的统计。在其他实施例中，该数量阈值可以是根据该待分析语句中各个已确定的初始词所包含的字的个数来确定的，例如可以根据每个初始词所包含的字的个数的平均值来确定。

以“李国华的屋檐水”为例进行说明。基于实体词识别模型，可以得到的初始词为“李国华”、“屋檐水”、“屋檐”，这三个实体词都是存在于实体词库中的词，而可能拆分得到的“檐水”等初始词，由于不存在于实体词库中，被直接删除，不进行后续分析处理。在得到“李国华”、“屋檐水”、“屋檐”后，进一步对这三个实体词进行筛选，按照筛选规则，按照字的排列顺序对应依次进行比较，初始词“屋檐”包含的两个字被包括到初始词“屋檐水”中了，且“屋檐”的长度不是最长，不满足长度条件，所以初始词“屋檐”会被去掉，并不会作为待分析语句“李国华的屋檐水”的实体词。而诸如“水”等单个的字，一方面可能并不存在于实体词库中而被删除，另一方面也因为个数为1，小于数量阈值，也会被删除。因此，对于“李国华的屋檐水”，后续筛选得到的实体词为“李国华”、“屋檐水”。其中，在基于按照字的排列顺序对应依次进行比较时，虽然两个初始词之间可能存在两个或者多个相同的字，但是顺序并不连续，也不会被删除，例如“李国华”和“李华”，虽然有两个字相同，但并不连续，所以“李国华”和“李华”不会因为存在两个相同的字而导致其中一个被删除。

在一个实施例中，所述实体词识别模型的生成过程包括：生成一个或者多个实体词库，每个实体词库中包括多个实体词、且不存在相同的实体词，所述实体词是指需要确定类别的词语；根据生成的实体词库构建实体词识别模型。首先可以基于AC自动机等算法构建得到的初始词识别模型，然后基于大量的实体词作为初始词识别模型的输入数据，由初始词识别模型为大量的实体词构建实体词库，在构建得到包括大量实体词的实体词库后，即可基于实体词识别模型从待分析语句中确定出一个或者多个实体词。

上述S401和S402可以同时进行，也可以先执行S401或者先执行S402。

S403：根据所述提取的至少一个实体词和所述至少一个分类类别，获取每个实体词的类别统计信息。在一个实施例中，所述实体词的类别统计信息可以是指实体词属于某个分类类别的概率。

在一个实施例中，所述S403可以包括：根据所述提取的至少一个实体词和所述至少一个分类类别，统计得到每个实体词属于每个分类类别的概率信息。所述概率信息的计算公式为：P＝N/M*100％；其中，P为至少一个实体词中的目标实体词属于至少一个分类类别中目标类别的概率，N为所述目标实体词属于所述目标类别的次数，所述M为所述目标实体词在某个时间范围出现的总数。

举例来说：针对上述的“李国华”、“屋檐水”两个实体词，需要统计“李国华”属于“音乐”的概率、统计“李国华”属于“视频”的概率，假设在预设的时长范围内，例如1个月，经过上述处理，对包括目标实体词“李国华”发起的用户搜索行为数据(或者是待分析语句)中，目标实体词“李国华”属于第一目标类别“音乐”的次数为800次，目标实体词“李国华”属于第二目标类别“视频”的次数为200次，则统计得到目标实体词属于第一目标类别的类别统计信息为：800/(800+200)*100％＝80％，而目标实体词属于第二目标类别的类别统计信息为：200/(800+200)*100％＝20％。在一个实施例中，可以以实体词-类别对的形式存储实体词和分类类别，基于实体词-类别对来确定出出现的目标实体词的总数，目标实体词为某个目标类别的总数，从而统计得到概率信息。可以存储这些统计结果，以便在一定的时间范围内，基于这些实体词的类别统计信息实现一些上层应用。

在一个实施例中，实体词属于某个分类类别的概率可以根据在一段时间内，以包括该实体词的搜索关键句或者搜索关键词的搜索过程中，用户的搜索记录数据来进行统计，例如，根据大量的搜索记录数据，分析发现实体词“李国华”被包括在索关键句或者搜索关键词中进行搜索，一共出现了100次，其中，用户在搜索结果上点击了音乐网站或者音乐相关标题的次数为90次，而在搜索结果上点击了视频网站或者视频相关标题的次数为10次，则可以认为“李国华”属于“音乐”的概率为90％，属于“视频”的概率为10％。

再请参见图5，是本发明实施例的训练语句分类模型的方法的流程示意图，本发明实施例的所述方法可以由智能终端或者服务器来执行。本发明实施例的所述方法可以包括如下步骤。

S501：获取搜索记录数据，所述搜索记录数据包括：搜索关键句和搜索关联信息。搜索记录数据可以是从各类搜索引擎对应的数据库中获取的，对从搜索引擎获取到的原始数据，可以进行相应的特征提取、封装等处理，在一个实施例中，对于针对用户搜索时产生的各种原始数据，仅提取其中的“搜索关键词/句”、“标题title”以及“网址url”，其中，“标题title”是指在以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面上包括的标题信息；“网址url”是指在以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面的网址信息。例如，每一条搜索记录数据可以经过特征提取基于封装，得到如下表1所示的数据。

表1：

搜索关键句	主题title	网址
			李国华的屋檐水	国内最大的音乐网站	y.qq.com

在一个实施例中，封装得到的搜索记录数据也可能仅仅包括搜索关键句和主题，或者搜索关键句和网址。

另外，在获取搜索记录数据作为对初始语句分类模型的训练语句时，可以根据所要训练的初始语句分类模型中所包括的分类类别，对数据进行筛选，在一个实施例中，所述S501可以包括：根据筛选条件对搜索记录集合中的数据进行筛选，得到搜索记录数据；所述筛选条件中包括指定网址信息，每一个指定网址信息与一个类别相匹配，筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的指定网址信息相匹配。所述的相匹配可以是指筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的某个指定网址信息为同一url，筛选得到的搜索记录数据中包括的网址信息为v.qq.com，而在筛选条件中的指定网址信息也存在v.qq.com。或者，所述的相匹配可以是指筛选得到的搜索记录数据中包括的网址信息是所述筛选条件中包括的某个指定网址信息关联的url，例如，筛选得到的搜索记录数据中包括的网址信息为v.qq.com/x/y.html，所述筛选条件中包括的v.qq.com下关联的url，也认为两者是匹配的。

在搜索记录数据的过程中，可以使用url库进行过滤，url库包括需要标注的目标分类类别的代表性url库。例如，对于视频类别，主要包括v.qq.com(一个提供视频的视频网站的网址)，yiqilaikandianying.com(另一个提供视频的视频网站的网址)等，音乐类别有y.qq.com(一个提供音乐的音乐网站的网址)等。基于url过滤，可以加强对标注的搜索关键句的数据质量，使同一网址下的搜索关键句之间更具相关性。

S502：通过初始语句分类模型对所述搜索关键句进行分类处理，得到分类结果。在一个实施例中，所述初始语句分类模型可以基于朴素贝叶斯分类器来实现，然后基于获取到的大量搜索记录数据作为训练语句对初始语句分类模型进行训练，以得到对某些分类类别的语句实现更好更准确的分类效果。在一个实施例中，所述初始语句分类模型还可以基于神经网络的无监督或者其他有监督分类器构建得到。

S503：如果所述分类结果与所述搜索关联信息之间满足更新条件，则对所述初始语句分类模型进行更新，得到语句分类模型。而如果所述分类结果与所述搜索关联信息之间不满足更新条件，则可以获取下一个搜索记录数据，将其中的搜索关键句作为训练语句重复执行S502到S503的步骤。而如果满足更新条件，则对所述初始语句分类模型进行更新，并在更新完成后的模型即为语句分类模型。可以进一步地将当前训练完成后得到的语句分类模型再次作为新的初始语句分类模型，获取下一条搜索记录数据，使用该下一条搜索记录数据再次执行上述步骤进行更新，直到所有的搜索记录数据都被使用。

在对所述初始语句分类模型中的参数进行更新后，可以再次将作为训练语句的所述搜索关键句输入到更新后的初始语句分类模型中，如果新的分类结果与所述搜索关联信息之间不满足更新条件，则可以获取下一个搜索记录数据，将其中的搜索关键句作为训练语句重复执行S502到S503的步骤。

在一个实施例中，所述分类结果与所述搜索关联信息之间满足更新条件是指：所述分类结果所指示的类别与所述搜索关联信息中的标题信息所表示的类别不相同。在一个实施例中，所述分类结果与所述搜索关联信息之间满足更新条件是指：所述分类结果所指示的类别与所述搜索关联信息中的网址信息所表示的类别不相同。如表1所示，从主题可以看出，当前的搜索记录数据“李国华的屋檐水”，用户点击查看的页面的主题为“国内最大的音乐网站”，则能够明显分析确定“国内最大的音乐网站”是表示“音乐”分类类别，或者根据用户点击查看的页面的url“y.qq.com”确定该网址为指定的音乐网址，进而确定url所表示“音乐”分类类别。

在其他实施例中，对初始语句分类模型的训练还可以基于人工标注来完成，例如，对于作为训练语句的搜索关键句“李国华的屋檐水”，直接人工标注为“音乐”分类类别，在训练的时候，如果初始语句分类模型对搜索关键句“李国华的屋檐水”的分类不属于人工标注的分类类别，即不属于“音乐”类别，则满足更新条件，需要对初始语句分类模型进行更新，通过完成更新后的模型重新对搜索关键句“李国华的屋檐水”进行分类，直至确定出搜索关键句“李国华的屋檐水”的分类结果与人工标注的分类类别相同。

基于大量的搜索记录数据作为初始语句分类模型的训练语句，对初始语句分类模型进行训练更新，得到最终的能够完成多个分类类别(例如上述提到的视频、音乐、游戏、小说等指定类别)的分类处理的语句分类模型，将后续的待分析语句分类为一个或者多个类别。

下面对本发明实施例的一种语句分析装置及智能设备进行说明。

再请参见图6，是本发明实施例的一种语句分析装置的结构示意图，本发明实施例的所述装置可以设置在某些智能设备上，所述装置包括如下结构。

获取模块600，用于获取待分析语句；

第一确定模块601，用于利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别；

第二确定模块602，用于利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词；

处理模块603，用于根据所述提取的至少一个实体词和所述至少一个分类类别，获取所述每个实体词的类别统计信息。

在一个实施例中，所述装置还可以包括：训练模块604，用于获取搜索记录数据，所述搜索记录数据包括：搜索关键句和搜索关联信息；通过初始语句分类模型对所述搜索关键句进行分类处理，得到分类结果；如果所述分类结果与所述搜索关联信息之间满足更新条件，则对所述初始语句分类模型进行更新，得到语句分类模型。

在一个实施例中，所述搜索关联信息包括：在以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面上包括的标题信息；所述分类结果与所述搜索关联信息之间满足更新条件是指：所述分类结果所指示的类别与所述标题信息所表示的类别不相同。

在一个实施例中，所述搜索关联信息包括：在以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面的网址信息；所述分类结果与所述搜索关联信息之间满足更新条件是指：所述分类结果所指示的类别与所述网址信息所表示的类别不相同。

在一个实施例中，所述训练模块604，在用于获取搜索记录数据时，具体用于根据筛选条件对搜索记录集合中的数据进行筛选，得到搜索记录数据；所述筛选条件中包括指定网址信息，每一个指定网址信息与一个类别相匹配，筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的指定网址信息相匹配。

在一个实施例中，所述装置还可以包括：生成模块605，用于生成一个或者多个实体词库，每个实体词库中包括多个实体词、且不存在相同的实体词，所述实体词是指需要确定类别的词语；根据生成的实体词库构建实体词识别模型。

在一个实施例中，所述第二确定模块602，具体用于对所述待分析语句进行词语拆分，得到初始词；利用所述实体词识别模型从所述得到的初始词中确定出实体词，其中，其中，确定出的实体词为得到的初始词中存在于所述实体词库中，且没有包含关系、词长度满足长度条件的词。

在一个实施例中，所述处理模块603，具体用于根据所述提取的至少一个实体词和所述至少一个分类类别，统计得到每个实体词属于每个分类类别的概率信息；统计所述确定的实体词属于所述确定的分类类别的概率包括：根据在时间范围内，以包括该确定的实体词的搜索关键句或者搜索关键词的搜索过程中，产生的搜索记录数据来进行统计得到。

再请参见图7，是本发明实施例的一种智能设备的结构示意图，本发明实施例的所述设备可以为服务器等设备，所述智能设备可以包括常用供电模块、外壳等结构，在本发明实施例中，所述智能设备还包括：数据接口701、存储装置702和处理器703。

所述数据接口701主要用于接收外部数据，在本发明实施例中，可以通过所述数据接口701从网络中接收搜索记录数据、各种实体词等数据，也可以接收由用户通过有线或者无线的方式录入的搜索记录数据、实体词等数据。所述数据接口701与所述处理器703相连。

所述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置702还可以包括上述种类的存储器的组合。

所述处理器703可以是中央处理器703(central processing unit，CPU)，所述处理器703还可以进一步包括硬件芯片。该处理器703可以是有多个中央处理器703、硬件芯片构成的处理器703组。

所述存储装置702还用于存储程序指令。所述处理器703可以调用所述程序指令，实现上述实施例中涉及到的各种方法。

在一个实施例中，所述所述处理器703，调用所述程序指令，用于获取待分析语句，利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别；利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词；根据所述提取的至少一个实体词和所述至少一个分类类别，获取每个实体词的类别统计信息。

在一个实施例中，所述处理器703，在用于利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别之前，还用于获取搜索记录数据，所述搜索记录数据包括：搜索关键句和搜索关联信息；通过初始语句分类模型对所述搜索关键句进行分类处理，得到分类结果；如果所述分类结果与所述搜索关联信息之间满足更新条件，则对所述初始语句分类模型进行更新，得到语句分类模型。

在一个实施例中，所述处理器703，在用于获取搜索记录数据时，用于根据筛选条件对搜索记录集合中的数据进行筛选，得到搜索记录数据；所述筛选条件中包括指定网址信息，每一个指定网址信息与一个类别相匹配，筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的指定网址信息相匹配。

在一个实施例中，所述处理器703，在用于利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词之前，还用于生成一个或者多个实体词库，每个实体词库中包括多个实体词、且不存在相同的实体词，所述实体词是指需要确定类别的词语；根据生成的实体词库构建实体词识别模型。

在一个实施例中，所述处理器703，在用于利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词时，用于对所述待分析语句进行词语拆分，得到初始词；利用所述实体词识别模型从所述得到的初始词中确定出实体词，其中，确定出的实体词为得到的初始词中存在于所述实体词库中，且没有包含关系、词长度满足长度条件的词。

在一个实施例中，所述处理器703，在用于根据所述提取的至少一个实体词和所述至少一个分类类别，获取每个实体词的类别统计信息时，用于根据所述提取的至少一个实体词和所述至少一个分类类别，统计得到每个实体词属于每个分类类别的概率信息；统计所述确定的实体词属于所述确定的分类类别的概率包括：根据在时间范围内，以包括该确定的实体词的搜索关键句或者搜索关键词的搜索过程中，产生的搜索记录数据来进行统计得到。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种语句分析方法，其特征在于，包括：

获取待分析语句；

利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别，所述语句分类模型为基于搜索记录数据训练得到，所述搜索记录数据包括搜索关键句和所述搜索关键句的标注类别，所述搜索关键句的标注类别根据以所述搜索关键句搜索得到的网页页面中被选择的目标网页页面的类型确定；

2.如权利要求1所述的方法，其特征在于，所述利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别之前，还包括：

获取搜索记录数据，所述搜索记录数据包括：搜索关键句和搜索关联信息；

通过初始语句分类模型对所述搜索关键句进行分类处理，得到分类结果；

如果所述分类结果与所述搜索关联信息之间满足更新条件，则对所述初始语句分类模型进行更新，得到语句分类模型。

3.如权利要求2所述的方法，其特征在于，所述搜索关联信息包括：在以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面上包括的标题信息；所述分类结果与所述搜索关联信息之间满足更新条件是指：所述分类结果所指示的类别与所述标题信息所表示的类别不相同。

4.如权利要求2所述的方法，其特征在于，所述搜索关联信息包括：在以所述搜索关键句搜索得到的网页页面中，被选择的目标网页页面的网址信息；所述分类结果与所述搜索关联信息之间满足更新条件是指：所述分类结果所指示的类别与所述网址信息所表示的类别不相同。

5.如权利要求2所述的方法，其特征在于，所述获取搜索记录数据，包括：

根据筛选条件对搜索记录集合中的数据进行筛选，得到搜索记录数据；

所述筛选条件中包括指定网址信息，每一个指定网址信息与一个类别相匹配，筛选得到的搜索记录数据中包括的网址信息与所述筛选条件中包括的指定网址信息相匹配。

6.如权利要求1所述的方法，其特征在于，所述利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词之前，包括：

生成一个或者多个实体词库，每个实体词库中包括多个实体词、且不存在相同的实体词；

根据生成的实体词库构建实体词识别模型。

7.如权利要求6所述的方法，其特征在于，所述利用实体词识别模型对所述待分析语句进行识别处理，从所述待分析语句中提取至少一个实体词，包括：

对所述待分析语句进行词语拆分，得到初始词；

利用所述实体词识别模型从所述得到的初始词中确定出实体词，其中，确定出的实体词为得到的初始词中存在于所述实体词库中，且没有包含关系、词长度满足长度条件的词。

8.如权利要求1所述的方法，其特征在于，所述根据所述提取的至少一个实体词和所述至少一个分类类别，获取每个实体词的类别统计信息，包括：

根据所述提取的至少一个实体词和所述至少一个分类类别，统计得到每个实体词属于每个分类类别的概率信息。

9.一种语句分析装置，其特征在于，包括：

获取模块，用于获取待分析语句；

第一确定模块，用于利用语句分类模型对所述待分析语句进行分类处理，得到所述待分析语句所属的至少一个分类类别，所述语句分类模型为基于搜索记录数据训练得到，所述搜索记录数据包括搜索关键句和所述搜索关键句的标注类别，所述搜索关键句的标注类别根据以所述搜索关键句搜索得到的网页页面中被选择的目标网页页面的类型确定；

10.一种智能设备，其特征在于，包括：存储装置和处理器，其中，

所述存储装置，存储有程序指令；

所述处理器，调用所述程序指令，用于执行如权利要求1-8任一项所述的语句分析方法。

11.一种计算机存储介质，其特征在于，该计算机存储介质中存储有程序指令，该程序指令被处理器执行时，用于实现如权利要求1-8任一项所述的语句分析方法。