CN107622052A

CN107622052A - 自然语言处理方法、装置、存储介质及终端设备

Info

Publication number: CN107622052A
Application number: CN201710850688.6A
Authority: CN
Inventors: 梁昆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2018-01-23
Anticipated expiration: 2037-09-20
Also published as: CN107622052B

Abstract

本申请实施例公开了一种自然语言处理方法、装置、存储介质及终端设备，该方法包括获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站；从所述爬行网站采集训练语句；将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型。本申请实施例的优点在于可以更准确地解析用户输入的信息以及了解用户的意图。

Description

自然语言处理方法、装置、存储介质及终端设备

技术领域

本申请实施例涉及基于人工智能技术进行语言语义识别的技术领域，尤其涉及一种自然语言处理方法、装置、存储介质及终端设备。

背景技术

自然语言处理是属于人工智能技术领域中的一个重要的方向，其应用领域涉及广泛，包括终端设备的智能助手、翻译工具和无人汽车等。通过自然语言处理技术可以根据用户的输入语音或文字确定用户的意图，并执行相应的操作；在用户不方便操作终端设备，或者忘记操作过程时，可以直接通过与智能助手“对话”而执行相应的操作。

然而，由于相同的文字在不同的应用场景中所代表的含义并不单一，或者具有相同的文字会被不同的人表述为不同的含义。所以，终端设备上智能助手有时候并不能准确地理解用户输入的文字所要表达的真正的意图，所以需要一种更能准确理解用户意图的自然语言处理技术。

发明内容

本申请实施例提供的一种自然语言处理方法、装置、存储介质及终端设备，可以更准确地解析用户输入的信息以及了解用户的意图。

第一方面，本申请实施例提供了一种自然语言处理方法，包括：

获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站；

从所述爬行网站采集训练语句；

将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型。

第二方面，本申请实施例提供了一种自然语言处理装置，包括：

爬行确定模块，用于获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站；

采集模块，用于从所述爬行网站采集训练语句；

训练模块，用于将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的自然语言处理方法。

第四方面，本申请实施例提供了一种终端设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如本申请实施例所述的自然语言处理方法。

本申请实施例中提供的一种自然语言处理方法，通过获取终端设备上的应用使用信息确定对应的爬行数据的网站，调整用于训练自然语言处理系统的训练数据的信息来源，更接近用户的习惯和兴趣爱好。通过采用上述技术方案，可以使自然语言处理的识别结果更接近用户的意图。

附图说明

图1为本申请实施例提供的一种自然语言处理方法的流程示意图；

图2为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图3为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图4为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图5为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图6为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图7为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图8为本申请实施例提供的另一种自然语言处理方法的流程示意图；

图9为本申请实施例提供的一种自然语言处理装置的结构框图；

图10为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

如智能手机的终端设备在人们的生活里越来越普及，随着发展起来的是装在智能手机中的应用软件，各个类别的应用能实现不同的功能，为用户的生活工作提供方便和辅助。而通过了解用户使用应用的习惯信息可以从一方面了解用户的行为习惯和兴趣爱好，通过在与用户的行为习惯和兴趣爱好对应的网站采集训练语句，并训练自然语言处理系统，可以使自然语言处理系统更准确地了解用户输入的自然语言的意图。

图1为本申请实施例提供的一种自然语言处理方法的流程示意图，该方法可以由自然语言处理装置执行，其中该装置可以由软件和/或硬件实现，一般可以集成在终端设备中。如图1所示，该方法包括：

步骤110、获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站。

示例性地，所述终端设备可以是手机、平板电脑以及其他智能终端设备。终端设备上装有用户的应用，即应用程序(APP，Application)。通过用户使用终端设备上的应用的使用信息，可以推测出与用户的行为习惯与兴趣爱好相关的网站。

应用使用信息可以包括用户使用该应用程序过程中多个维度的各类信息，例如，在预设固定时间内，应用的使用次数和使用时长，可以表明该应用是否是用户习惯常用的应用程序。例如，游戏类的应用和音乐类的应用使用时长相对会比较长，而工具类的应用的使用次数相对会比较多。所以，通过应用的使用次数和使用时长可以推断出用户的终端设备上的常用应用，再确定与常用应用对应的爬行网站，该爬行网站会与用户的行为习惯与兴趣爱好比较接近。当然，除了通过应用的使用次数和使用时长，还可以是其他应用使用信息。例如，该应用程序的使用操作信息，包括交互式操作、点击式操作或滑动轨道式操作等。再例如，通过提取该应用程序在使用过程中的用户行为信息，包括购买行为、位置移动轨迹、检索行为或浏览行为等。只要能体现出用户个性化特点的应用使用信息，都可以用于确定与应用关联的爬行网站。

步骤120、从所述爬行网站采集训练语句。

示例性地，从所述爬行网站对应的页面上采集符合采集条件的语句作为训练语句。所述采集条件可以包括所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种。

采集条件可以是对应的页面中的标题语句。一个网站对应的页面上包含诸多信息，其中，标题会包含其对应的文章或内容的核心部分，所以不用采集整篇文章或整段内容，仅采集标题语句便可以得到和对应的文章或内容相关度比较高的语句。

采集条件可以是包含预设内容的语句。预设内容可以是包含“所以”的语句，或包含“综上所述”的语句，包含上述预设内容的语句一般是具有结论性的语句，其所包含的信息和其对应的文章或内容也有着较高的相关度。

采集条件可以是包括出现次数大于预设重复次数的语句。在一个页面中出现次数大于预设重复次数的语句，一般是该爬行网站中比较重要或比较热门的内容。从所述爬行网站上采集满足上述采集条件的训练语句，其包含的信息会比较符合用户的行为习惯和兴趣爱好。

通过采集满足上述采集条件的语句作为训练词句，可以得到与用户的个性化特点有着较强关联性的语句。

步骤130、将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型。

所述自然语言处理模块可以对用户输入的自然语言语句进行分析，并确定自然语言语句所包含的含义。在使用自然语言处理模块之前，需要对自然语言处理模块进行训练，训练方法是将大量的训练语句发送至自然语言处理系统，自然语言处理系统根据分割词典将训练语句分割并进行训练学习，以生成若干个训练词作为所述用户的个性词，并为所述个性词生成解析信息，根据个性词和对应的解析信息生成自然语言处理模型。

由于训练语句与用户的个性化特点有着较强的关联性，分割后的训练词比较接近用户的语言习惯，能够反应用户的个性化特点。将分割后的训练词作为用户的个性词，使自然语言处理模型学习这些个性词，可以使自然语言处理模型更接近用户的行为习惯和兴趣爱好，更了解用户的语言习惯。

用户使用经过训练的自然语言处理模块时，输入自然语言语句，自然语言处理系统将用户输入的自然语言语句分解成若干个分解词，并根据自然语言处理模型对若干个分解词进行解析、特征提取以及分类，进而确定用户输入的自然语言语句所包含的含义，并使自然语言处理系统根据确定的含义执行相应的操作。

通过获取用户的终端设备上的应用使用信息来确定要采集训练语句的网站，能够得到比较接近用户习惯与兴趣的语句，而自然语言处理模块经过上述语句的训练，能够更接近用户的行为习惯和兴趣爱好，以及更了解用户的语言习惯。

可选地，如图2所示，获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站可以通过下述方式实施：

步骤111a、获取用户的终端设备上的应用使用信息；

步骤112a、根据所述应用使用信息确定所述用户的常用应用、交互式应用或个性化应用，作为目标应用；

步骤113a、确定与所述目标应用关联的爬行网站。

其中，常用应用是用户经常使用的应用程序。对应的应用使用信息可以包括：在预设固定时间内，应用的使用次数和使用时长，通过使用次数和使用时长确定所述用户的常用应用，通过常用应用可以了解用户的行为习惯和兴趣爱好。

交互式应用是需要用户与服务器，或用户与其他用户，通过发送包括自然语言的交互消息进行交流的应用程序。对应的应用使用信息可以包括上传流量数据用量、文本编辑界面唤起或消息发送等。通过上传流量数据用量、通过应用程序对文本编辑界面的唤起或消息的发送等行为可以确定为交互式应用。交互式应用包括如微博、轻博客和社交应用等，在交互式应用的使用中，用户会上传用户自己的内容进行发布。如用户在使用微博、轻博客时，会发表用户自己的图片和文章等，相比其他普通阅读娱乐类的应用，交互式应用获取了更多的用户的内容信息，通过交互式应用也能了解用户的行为习惯和兴趣爱好。

个性化应用是需要用户输入个性化定制消息的应用程序，相应的应用使用信息可以包括应用自订信息等用户操作行为。通过应用自订信息可以确定个性化应用，个性化应用包括可定制应用，如今日头条、凤凰新闻等，用户在使用此类应用时，可以自行设定感兴趣的版块，以及剔除不感兴趣的版块。此类应用比一般的应用具有更高的针对性，通过个性化应用同样能了解用户的行为习惯和兴趣爱好。

通过常用应用、交互式应用或个性化应用作为目标应用，以通过多个维度确定关联的爬行网站，可以通过多个维度获取到与用户的行为习惯和兴趣爱好比较接近的训练语句，并将训练语句通过自然语言处理系统进行训练，生成的自然语言处理模型更了解用户的语言习惯。

可选地，如图3所示，获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站可以通过下述方式实施：

步骤111b、获取用户的终端设备上的应用使用信息。

步骤112b、根据所述应用使用信息确定所述用户的目标应用。

可选地，可以根据所述应用使用信息中的使用次数和使用时长确定满足预设条件的应用，作为目标应用。所述预设条件包括：在预设历史时间内，使用次数大于预设使用次数，和/或使用时间大于预设时间。或者可以通过上传流量数据用量确定交互式应用，作为目标应用。还可以通过应用自订信息确定个性化应用，作为目标应用。

还可以是通过应用程序的交互式操作、点击式操作或滑动轨道式操作等确定用户的目标应用。或通过应用程序的用户行为信息，包括购买行为、位置移动轨迹、检索行为或浏览行为等应用使用信息确定用户的目标应用。

步骤113b、根据所述应用使用信息中的权限信息，对所述目标应用进行筛选过滤。

可选地，根据所述应用使用信息中的权限信息的获取数量，从多至少对所述目标应用进行排序，并筛选出前设定数值个目标应用。所述权限信息包括环境数据获取权限、用户数据获取权限、通知权限和后台操作权限。

例如，终端设备中的应用微信所获取的权限信息包括环境数据获取权限、用户数据获取权限和通知权限，则微信的权限信息的获取数量为3个；终端设备中的应用有道词典所获取的权限信息包括环境数据获取权限，则有道词典的权限信息的获取数量为1个。根据应用使用信息中的权限信息的获取数量，从多至少对目标应用进行排序，如设定数值为3时，则选取权限信息的获取数量最多的3个目标应用作为筛选后的目标应用。

步骤114b、确定与筛选后的目标应用关联的爬行网站。

通过应用使用信息中的权限信息可以进一步获知用户对于其终端设备上的应用的使用习惯。当获取到较多的常用应用时，通过对这些常用应用的权限信息的获取数量进行排序和筛选，可以进一步筛选出其中权限信息的获取数量较多的应用，即权限获取较高的应用。通过该应用的权限信息可以进一步了解用户使用该应用的习惯，通过权限信息进一步筛选确定的目标应用所关联的爬行网站更接近用户的行为习惯和兴趣爱好，从该爬行网站采集的训练语句通过自然语言处理系统进行训练，生成的自然语言处理模型也能更了解用户的语言习惯。

可选地，如图4所示，确定与筛选后的目标应用关联的爬行网站可以通过下述方式实施：

步骤101、根据所述目标应用的类别数据确定母标签；

示例性地，如所述目标应用包括：微信、模拟人生、百度地图、全民小镇、模拟城市、果壳精选、网易云音乐、喜马拉雅、豆瓣FM和微博，根据上述目标应用的类别数据可以确定上述目标应用对应的母标签分别是：社交、游戏、导航、游戏、游戏、生活、音乐、音乐、音乐和社交。

步骤102、确定所述母标签中相同母标签的数量，根据所述相同母标签的数量对所述母标签进行筛选，以确定目标母标签；

可选地，根据所述母标签中相同母标签的数量，从多至少对相同母标签进行排序，并筛选出前第一数值个相同母标签作为目标母标签。如上文所述的目标应用的母标签中，相同母标签为音乐的数量为3个，相同母标签为游戏的数量为3个，相同母标签为社交的数量为2个，相同母标签为导航的数量为1个，相同母标签为生活的数量为1个；假设第一数值为2，则筛选出其中相同母标签的数量较多的2个作为目标母标签，即音乐和游戏。

步骤103、根据所述目标母标签对应的目标应用的描述信息确定子标签；并确定所述子标签中相同子标签的数量，根据所述相同子标签的数量对所述子标签进行筛选，以确定目标子标签；

可选地，根据所述子标签中相同子标签的数量，从多至少对相同子标签进行排序，并筛选出前第二数值个相同子标签作为目标子标签。如上文所述的目标母标签所对应的目标应用包括：模拟人生、全民小镇、模拟城市、网易云音乐、喜马拉雅和豆瓣FM。其中，网易云音乐的描述信息包括“超清音质、优质歌单、自动智能推荐音乐、海量逗趣乐评、精致视觉交互……”，可以通过上述描述信息确定网易云音乐的子标签包括：推荐音乐、乐评和歌单。相应地，模拟人生的子标签包括：模拟游戏和EA games，全民小镇的子标签包括：模拟游戏和腾讯游戏，模拟城市的子标签包括：模拟游戏和EA games，喜马拉雅的子标签包括：广播、自媒体和录音，豆瓣FM的子标签包括：歌单和推荐音乐。上述目标应用的子标签中，相同子标签为模拟游戏的数量为3个，相同子标签为EA games的数量为2个，相同子标签为推荐音乐的数量为2个，相同子标签为歌单的数量为2个，相同子标签为乐评的数量为1个，相同子标签为腾讯游戏的数量为1个，相同子标签为广播的数量为1个，相同子标签为自媒体的数量为1个，相同子标签为录音的数量为1个。假设第二数值为2，则筛选出其中相同子标签的数量较多的2个作为目标子标签，即模拟游戏和EA games。

步骤104、根据所述目标子标签确定对应的爬行网站。

可选地，如上文所述的目标子标签为模拟游戏和EA games，确定对应的爬行网站可以是某游戏论坛对应的模拟游戏版块专区，或者某游戏论坛对应的EA games版块专区。所述目标子标签所涵盖的内容相对比较有针对性，根据目标子标签确定对应的爬行网站是比较针对用户的行为习惯和兴趣爱好，从对应的爬行网站上所爬取到的语句通过自然语言处理系统进行训练，生成的自然语言处理模型也更了解用户的语言习惯。

可选地，如图5所示，获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站可以通过下述方式实施：

步骤111c、获取终端设备上的应用使用信息和用户属性信息；

其中，用户属性信息包括用户在终端设备上的预设信息，包括终端设备上的通讯录中的用户本人页面的预设信息，或者终端设备的设置中用户的预设信息，以及其他预设信息等。

步骤112c、根据所述应用使用信息确定所述用户的目标应用；

步骤113c、根据用户属性信息确定与所述目标应用关联的爬行网站。

可选地，所述用户属性信息包括：职业信息、地区信息、自订标签等用户预设的信息。根据所述应用使用信息和用户属性信息可以进一步了解所述用户的个性化特点。例如，当目标应用包括网易LOFTER或Fonta等创意应用，以及用户的职业信息包括广告人，则可以确定爬行网站包括数英网的创意版块专区。当目标应用包括凤凰新闻或搜狐新闻等新闻阅读应用，同时用户的地区信息包括广东省，则可以确定爬行网站包括大粤网。还可以根据用户的自订标签确定与目标应用关联的爬行网站，例如，当目标应用包括果壳精选的生活类应用，用户的自订标签包括“科技”，则可以确定爬行网站包括果壳网的科技板块专区。

由于用户属性信息是直接体现用户的个性化特点的信息，通过用户属性信息和目标应用共同确定的关联的爬行网站，对于用户的行为习惯和兴趣爱好更具针对性，从对应的爬行网站上所爬取到的语句通过自然语言处理系统进行训练，生成的自然语言处理模型也更了解用户的语言习惯。

可选地，如图6所示，从所述爬行网站采集训练语句可以通过下述方式实施：

步骤121、将所述爬行网站对应的页面作为爬行页面；

步骤122、从爬行页面上获取符合采集条件的语句作为训练语句；

所述采集条件可以是提取能够尽量反应用户习惯性用语的条件，或能够尽量反应页面实质内容的条件。采集条件可以包括：所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种。

采集条件可以是包括出现次数大于预设重复次数的语句。在一个页面中出现次数大于预设重复次数的语句，一般是该爬行网站中比较重要或比较热门的内容。从所述爬行网站上采集满足上述采集条件的训练语句，其包含的信息比较符合用户的行为习惯和兴趣爱好。

步骤123、如果在所述爬行页面中获取到关联链接时，将关联链接对应的关联页面作为爬行页面，并返回执行步骤122。

示例性地，所述关联链接为爬行页面上可以用于打开下层的关联页面的链接，包括符合采集条件的语句对应的URL链接和爬行页面中的图片对应的URL链接等。通过获取爬行页面上符合采集条件的语句作为训练语句，再打开符合采集条件的语句对应的URL链接的关联页面，将该关联页面作为爬行页面返回执行采集语句的操作；或打开爬行页面中图片对应的URL链接的关联页面，将该关联页面作为爬行页面返回执行采集语句的操作。如此，可以将爬行网站的所有关联页面的符合采集条件的语句进行采集，以提高自然语言处理系统的训练语句的丰富和深度。

可选地，如图7所示，将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型可以通过下述方式实施：

步骤131、将训练语句发送至自然语言处理系统；

步骤132、通过自然语言处理系统的分割词典将训练语句分割并进行训练学习，以生成至少一个训练词作为所述用户的个性词，并为所述个性词生成解析信息；其中，所述解析信息包括词性标注和词义注解，所述个性词和其解析信息作为所述用户的自然语言处理模型。

所述自然语言处理系统是用于训练自然语言处理模型的工具，可以是神经网络模型，还可以是包括设定数据库或具备设定规则的数学模型。示例性地，所述自然语言处理系统包括：接收模块、分割模块和解析模块。

接收模块用于接收训练语句，并将训练语句发送至分割模块。

分割模块用于基于分割词典对训练语句进行匹配并切分，分割成至少一个训练词，作为用户的个性词。

解析模块对个性词进行解析并生成对应的解析信息，解析信息包括词性标注和词义注解；词性标注即确定个性词在训练语句中的词性，是名词、动词或代词等等，可以通过预存的词性库对个性词进行词性标注。词义注解包括个性词的释义，可以通过预存的词义库对个性词进行注解，也可以通过网络搜索获取释义。根据经过分割和解析的个性词及其解析信息生成所述用户的自然语言处理模型。

因为相同的词语在不同的用户理解下，有着不同的释义。特别是一些比较具有个性色彩的词汇，不同用户的理解更是相差甚远。通过在个性词的解析信息中设置词义注解，自然语言处理模型通过其词义注解，对于个性词的理解会比较接近用户对于该个性词的理解。

可选地，如图8所示，将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型之后还包括：

步骤141、接收所述用户输入的校正语句，并发送至所述自然语言处理系统；

步骤142、通过自然语言处理系统识别所述校正语句以提取校正信息，所述校正信息包括词性校正和/或词义校正；

步骤143、根据所述校正信息校正对应的所述解析信息。

示例性地，用户可以对自然语言处理模型中训练生成的解析信息进行校正。例如，自然语言处理系统在训练过程中对个性词“奶糖”进行解析生成的词性标注是名词，词义注解是食物、甜食等。当用户输入的自然语言为“我忘了给奶糖喂食”，自然语言处理系统可能无法理解上述自然语言。

用户可以通过输入校正语句“奶糖是我养的猫”，自然语言处理系统可以对校正语句进行识别以及提取校正信息，把个性词“奶糖”的词义注解校正为宠物、猫等。通过接收用户输入的校正语句可以对自然语言处理模型中一些解析信息错误的训练词进行校正，以提高自然语言处理的识别处理能力。

如图9为本申请实施例提供的一种自然语言处理装置的结构框图，该装置可以由软件和/或硬件实现，一般集成在终端设备中，如图9所示，该装置包括：

爬行确定模块210，用于获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站；

采集模块220，用于从所述爬行网站采集训练语句；

训练模块230，用于将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型。

可选地，爬行确定模块具体用于：

获取用户的终端设备上的应用使用信息；

根据所述应用使用信息确定所述用户的常用应用、交互式应用或个性化应用，作为目标应用；

确定与所述目标应用关联的爬行网站。

可选地，爬行确定模块具体用于：

获取用户的终端设备上的应用使用信息；

根据所述应用使用信息确定所述用户的目标应用；

根据所述应用使用信息中的权限信息，对所述目标应用进行筛选过滤；

确定与筛选后的所述目标应用关联的爬行网站。

可选地，爬行确定模块具体用于：

根据所述目标应用的类别数据确定母标签；

确定所述母标签中相同母标签的数量，根据所述相同母标签的数量对所述母标签进行筛选，以确定目标母标签；

根据所述目标母标签对应的目标应用的描述信息确定子标签；

确定所述子标签中相同子标签的数量，根据所述相同子标签的数量对所述子标签进行筛选，以确定目标子标签；

根据所述目标子标签确定对应的爬行网站。

可选地，爬行确定模块具体用于：

获取终端设备上的应用使用信息和用户属性信息；

根据所述应用使用信息确定所述用户目标应用；

根据用户属性信息确定与所述目标应用关联的爬行网站。

可选地，采集模块具体包括：

页面确定单元，用于将所述爬行网站对应的页面作为爬行页面；

内容采集单元，用于从所述爬行页面上获取符合采集条件的语句作为训练语句；所述采集条件包括：所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种；

关联确定单元，如果在所述爬行页面中获取到关联链接时，将所述关联链接对应的关联页面作为爬行页面，并执行内容采集单元。

可选地，训练模块具体用于：

将训练语句发送至自然语言处理系统；

通过自然语言处理系统的分割词典将训练语句分割并进行训练学习，以生成至少一个训练词作为所述用户的个性词，并为所述个性词生成解析信息；其中，所述解析信息包括词性标注和词义注解，根据所述个性词和其解析信息生成所述用户的自然语言处理模型。

可选地，还包括：

校正模块，用于接收所述用户输入的校正语句，并发送至所述自然语言处理系统；

通过自然语言处理系统识别所述校正语句以提取校正信息，所述校正信息包括词性校正和/或词义校正；

根据所述校正信息校正对应的解析信息。

本申请实施例还提供了一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的自然语言处理操作，还可以执行本申请任意实施例所提供的自然语言处理方法中的相关操作。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

本申请实施例还提供了一种终端设备，该终端设备中可集成本申请实施例提供的自然语言处理装置。图10为本申请实施例提供的一种终端设备的结构示意图。如图10所示，该终端设备可以包括：壳体(图中未示出)、触摸屏(图中未示出)、触摸按键(图中未示出)、存储器301、中央处理器(Central Processing Unit，CPU)302(又称处理器，以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部；所述CPU302和所述存储器301设置在所述电路板上；所述电源电路，用于为所述终端设备的各个电路或器件供电；所述存储器301，用于存储可执行程序代码；所述CPU302通过读取所述存储器301中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序，以实现以下步骤：

从所述爬行网站采集训练语句；

所述终端设备还包括：外设接口303、RF(Radio Frequency，射频)电路305、音频电路306、扬声器311、电源管理芯片308、输入/输出(I/O)子系统309、触摸屏312、其他输入/控制设备310以及外部端口304，这些部件通过一个或多个通信总线或信号线307来通信。

应该理解的是，图示终端设备300仅仅是终端设备的一个范例，并且终端设备300可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的用于自然语言处理的终端设备进行详细的描述，该终端设备以手机为例。

存储器301，所述存储器301可以被CPU302、外设接口303等访问，所述存储器301可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口303，所述外设接口303可以将设备的输入和输出外设连接到CPU302和存储器301。

I/O子系统309，所述I/O子系统309可以将设备上的输入输出外设，例如触摸屏312和其他输入/控制设备310，连接到外设接口303。I/O子系统309可以包括显示控制器3091和用于控制其他输入/控制设备310的一个或多个输入控制器3092。其中，一个或多个输入控制器3092从其他输入/控制设备310接收电信号或者向其他输入/控制设备310发送电信号，其他输入/控制设备310可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器3092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏312，所述触摸屏312是用户的终端设备与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统309中的显示控制器3091从触摸屏312接收电信号或者向触摸屏312发送电信号。触摸屏312检测触摸屏上的接触，显示控制器3091将检测到的接触转换为与显示在触摸屏312上的用户界面对象的交互，即实现人机交互，显示在触摸屏312上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路305，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路305接收并发送RF信号，RF信号也称为电磁信号，RF电路305将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路305可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

音频电路306，主要用于从外设接口303接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器311。

扬声器311，用于将手机通过RF电路305从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片308，用于为CPU302、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

本申请实施例提供的终端设备，可以更准确地解析用户输入的信息以及了解用户的意图。

上述实施例中提供的自然语言处理装置、存储介质及终端设备可执行本申请任意实施例所提供的自然语言处理方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的自然语言处理方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种自然语言处理方法，其特征在于，包括：

从所述爬行网站采集训练语句；

2.如权利要求1所述的方法，其特征在于，获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站包括：

获取用户的终端设备上的应用使用信息；

确定与所述目标应用关联的爬行网站。

3.如权利要求1所述的方法，其特征在于，获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站包括：

获取用户的终端设备上的应用使用信息；

根据所述应用使用信息确定所述用户的目标应用；

确定与筛选后的所述目标应用关联的爬行网站。

4.如权利要求2或3所述的方法，其特征在于，确定与所述目标应用关联的爬行网站包括：

根据所述目标应用的类别数据确定母标签；

根据所述目标子标签确定对应的爬行网站。

5.如权利要求1所述的方法，其特征在于，获取用户的终端设备上的应用使用信息，并根据所述应用使用信息确定与应用关联的爬行网站包括：

获取终端设备上的应用使用信息和用户属性信息；

根据所述应用使用信息确定所述用户的目标应用；

根据用户属性信息确定与所述目标应用关联的爬行网站。

6.如权利要求1至3任一项所述的方法，其特征在于，所述从所述爬行网站采集训练语句，包括：

将所述爬行网站对应的页面作为爬行页面；

从所述爬行页面上获取符合采集条件的语句作为训练语句；所述采集条件包括：所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种；

如果在所述爬行页面中获取到关联链接时，将所述关联链接对应的关联页面作为爬行页面，并返回执行从所述爬行页面上获取符合采集条件的语句的操作。

7.如权利要求1至3任一项所述的方法，其特征在于，所述将所述训练语句采用自然语言处理系统进行训练，以生成所述用户的自然语言处理模型，包括：

将训练语句发送至自然语言处理系统；

8.如权利要求7所述的方法，其特征在于，为所述个性词生成解析信息之后，还包括：

接收所述用户输入的校正语句，并发送至所述自然语言处理系统；

通过自然语言处理系统识别所述校正语句以提取校正信息；所述校正信息包括词性校正和/或词义校正；

根据所述校正信息校正对应的解析信息。

9.一种自然语言处理装置，其特征在于，包括：

采集模块，用于从所述爬行网站采集训练语句；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的自然语言处理方法。

11.一种终端设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的自然语言处理方法。