CN109543185B

CN109543185B - 语句主题获取方法和装置

Info

Publication number: CN109543185B
Application number: CN201811397733.8A
Authority: CN
Inventors: 吴鲲; 杨汇成
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2021-11-16
Anticipated expiration: 2038-11-22
Also published as: CN109543185A

Abstract

本公开提供了一种语句主题获取方法，包括：获取语句数据，所述语句数据表示待处理语句；从所述语句数据生成句式结构数据，所述句式结构数据表示属于预置主题类别的特定句式结构；基于所述特定句式结构确定所述待处理语句的主题。本公开还提供了一种语句主题获取装置和计算机设备。

Description

语句主题获取方法和装置

技术领域

本公开涉及一种语句主题获取方法和装置。

背景技术

现有技术中，当需要获取一段语句的主题时，通常采用分词工具将该语句分为单独的词，根据各个词对应的实数映射关系构建词向量，根据词向量计算相似度从而找到对应主题。然而，在论坛中、商品评价区中等，用户的留言往往是比较偏口语化、且短小的语句，通过现有技术对口语化语句进行分词往往无法得到有意义的分词结果，从而导致获取语句主题的准确率低。

发明内容

本公开的一个方面提供了一种语句主题获取方法，包括：获取语句数据，该语句数据表示待处理语句；从该语句数据生成句式结构数据，该句式结构数据表示属于预置主题类别的特定句式结构；基于该特定句式结构确定所述待处理语句的主题。

可选地，上述从语句数据生成句式结构数据包括：预置多个主题类别，任一主题类别对应至少一个样本语句；基于滑动窗口从待处理语句中提取至少一个片段，将所提取的片段按照在待处理语句中的位置顺序构成候选句式结构；将所构成的候选句式结构与所述主题类别对应的样本语句进行匹配，计算该候选句式结构在所述主题类别中的词频；将该候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算该候选句式结构在所述多个主题类别中的逆文档频率；当计算得到的词频和/或逆文档频率满足预设条件时，确定所构成的候选句式结构为属于所述主题类别的特定句式结构。

可选地，上述基于滑动窗口从待处理语句中提取至少一个片段，将所提取的片段按照在待处理语句中的位置顺序构成候选句式结构包括：利用长度可变的滑动窗口在待处理语句上滑动，提取落入滑动窗口的片段；由所提取的任一片段按照在待处理语句中的位置顺序构成候选句式结构；或者，由所提取的任意多个无重叠的片段按照在待处理语句中的位置顺序构成候选句式结构。

可选地，在上述基于滑动窗口从待处理语句中提取至少一个片段之前，上述方法还包括：对待处理语句进行预处理。所述对所述待处理语句进行预处理包括如下至少一项：当所述待处理语句中包括数字时，利用第一预设占位符替换所述数字；并且/或者，当所述待处理语句中包括日期时，利用第二预设占位符替换所述日期；并且/或者，当所述待处理语句中包括时间时，利用第三预设占位符替换所述时间；且/或者，当所述待处理语句包括连续多个相同的词语时，删除其中一个或多个所述词语。

可选地，上述当计算得到的词频和/或逆文档频率满足预设条件时，确定所构成的候选句式结构为属于所述主题类别的特定句式结构包括：当计算得到的词频和逆文档频率的乘积大于第一预设阈值时，确定所构成的候选句式结构为属于所述主题类别的特定句式结构。

可选地，上述方法还包括：当计算得到的逆文档频率小于第二预设阈值时，将所构成的候选句式结构置于黑名单中；在将该候选句式结构与所述主题类别对应的样本语句进行匹配以及将该候选句式结构与所述多个主题类别对应的样本语句进行匹配之前，将该候选句式结构在黑名单中进行匹配，当匹配成功时，直接确定该候选句式结构不是特定句式结构。

可选地，上述基于特定句式结构确定待处理语句的主题包括：当提取出属于一个主题类别的特定句式结构时，将该主题类别作为待处理语句的主题；当提取出属于多个主题类别的特定句式结构时，选取所对应的特定句式结构数量最多的前预设数量个主题类别作为待处理语句的主题。

可选地，上述方法还包括：当从待处理语句中没有提取出属于预置主题类别的特定句式结构时，确定该待处理语句无对应主题。

本公开的另一方面提供了一种语句主题获取装置，包括获取模块、提取模块和确定模块。获取模块用于获取语句数据，所述语句数据表示待处理语句。提取模块用于从所述语句数据生成句式结构数据，所述句式结构数据表示属于预置主题类别的特定句式结构。确定模块用于基于所述特定句式结构确定所述待处理语句的主题。

可选地，提取模块从语句数据生成句式结构数据包括：提取模块用于预置多个主题类别，任一主题类别对应至少一个样本语句；基于滑动窗口从待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构；将所述候选句式结构与所述主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述主题类别中的词频；将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述多个主题类别中的逆文档频率；当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构。

可选地，提取模块基于滑动窗口从所述待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构包括：提取模块用于利用长度可变的滑动窗口在所述待处理语句上滑动，提取落入所述滑动窗口的片段；由所提取的任一片段按照在所述待处理语句中的位置顺序构成所述候选句式结构；或者，由所提取的任意多个无重叠的片段按照在所述待处理语句中的位置顺序构成所述候选句式结构。

可选地，上述装置还包括预处理模块，用于在提取模块基于滑动窗口从所述待处理语句中提取至少一个片段之前，对所述待处理语句进行预处理。预处理模块对待处理语句进行预处理包括如下至少一项：预处理模块用于当所述待处理语句中包括数字时，利用第一预设占位符替换所述数字；并且/或者，当所述待处理语句中包括日期时，利用第二预设占位符替换所述日期；并且/或者，当所述待处理语句中包括时间时，利用第三预设占位符替换所述时间；并且/或者，当所述待处理语句包括连续多个相同的词语时，删除其中一个或多个所述词语。

可选地，提取模块当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构包括：提取模块用于当所述词频和所述逆文档频率的乘积大于第一预设阈值时，确定所述候选句式结构为属于所述主题类别的特定句式结构。

可选地，上述装置还包括黑名单处理模块，用于当所述逆文档频率小于第二预设阈值时，将所述候选句式结构置于黑名单中。黑名单处理模块还用于在提取单元将所述候选句式结构与所述主题类别对应的样本语句进行匹配以及将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配之前，将所述候选句式结构在黑名单中进行匹配，当匹配成功时，直接确定所述候选句式结构不是特定句式结构。

可选地，确定模块基于所述特定句式结构确定所述待处理语句的主题包括：确定模块用于当提取出属于一个主题类别的特定句式结构时，将该主题类别作为所述待处理语句的主题；当提取出属于多个主题类别的特定句式结构时，选取所对应的特定句式结构数量最多的前预设数量个主题类别作为所述待处理语句的主题。

可选地，上述装置还包括辅助确定模块，用于当从待处理语句中没有提取出属于预置主题类别的特定句式结构时，确定该待处理语句无对应主题。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开的实施例的语句主题获取方法和装置的应用场景；

图2示意性示出了根据本公开的实施例的语句主题获取方法的流程图；

图3示意性示出了根据本公开的实施例的从语句数据生成句式结构数据的流程图；

图4A示意性示出了根据本公开的实施例的从待处理语句提取片段的示意图；

图4B示意性示出了根据本公开的另一实施例的从待处理语句提取片段的示意图；

图5示意性示出了根据本公开的实施例的语句主题获取装置的框图；

图6示意性示出了根据本公开的另一实施例的语句主题获取装置的框图；以及

图7示意性示出了根据本公开的实施例的适于实现语句主题获取方法的计算机设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本公开的实施例提供了一种语句主题获取方法以及装置。该方法包括获取阶段、处理阶段和主题确定阶段，在获取阶段中，获取表示待处理语句的语句数据，在处理阶段，从所获取的语句数据生成表示属于预置主题类别的特定句式结构的句式结构数据，最后进入主题确定阶段，基于所生成的特定句式结构确定待处理语句的主题。

图1示意性示出了根据本公开的实施例的语句主题获取方法和装置的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

在互联网论坛、电商平台商品评价区、社交网络留言区等场景中，包含了大量的用户留言、讨论和评价，需要根据需求从这些留言、讨论和评价中获取到有意义的信息。然而，由于这些场景中的用户讨论、评价和留言往往都是偏口语化的、较为短小的语句，如何获取这些偏口语化的语句的主题是本公开所要解决的问题。

如图1所示，在一款手机产品的论坛中，用户101的留言语句为“续航6啊”，通过计算机设备102对该语句进行处理获取到该语句对应的主题为“电池性能好”，即获取到用户101的留言所包含的有用信息为对手机电池的评价反馈，同理地，计算机设备102可以对其他用户的各种口语化留言进行处理获取到其各自对应的语句主题，从而可以获取到对于所述手机产品的各种评价反馈，进而在后续可以根据这些评价反馈来进一步对所述手机产品进行改进。本实施例以论坛中用户的留言为例进行说明，在其他场景下与此同理，在此不再赘述。

图2示意性示出了根据本公开的实施例的语句主题获取方法的流程图。

如图2所示，该方法包括操作S210～S230。

在操作S210，获取语句数据，所述语句数据表示待处理语句。

在操作S220，从所述语句数据生成句式结构数据，所述句式结构数据表示属于预置主题类别的特定句式结构。

本操作中，预置主题类别可以是根据实际需求预置的一个或多个主题类别，表征所关注的范围内不同的特征类别，本操作从语句数据生成表示属于预置主题类别的特定句式结构的句式结构数据，即所生成的句式结构数据与预置的一个或多个主题类别相对应。

在操作S230，基于所述特定句式结构确定所述待处理语句的主题。

可见，图2所示的方法基于表示待处理语句的语句数据生成表示属于预置主题类别的特定句式结构的句式结构数据，即从待处理语句获取属于预置主题类别的特定句式结构，再基于所生成的特定句式结构确定待处理语句的主题，适用于获取如论坛、商品评论区等场景中用户发表的偏口语化的语句的主题，利用了偏口语化的语句所具有的特定句式结构作为主题确认的依据，无需利用现有的分词工具进行信息提取，能够更为准确、高效地找到偏口语化的待处理语句中的有意义信息。

下面对图2所示的操作S220进行展开说明。

图3示意性示出了根据本公开的实施例的从语句数据生成句式结构数据的流程图。

如图3所示，该方法包括操作S221～S224。

在操作S221，预置多个主题类别，所述主题类别对应至少一个样本语句。

在操作S222，在获取到表示待处理语句的语句数据后，基于滑动窗口从待处理语句中提取至少一个片段，将所提取的片段按照在待处理语句中的位置顺序构成候选句式结构。

在操作S223，将候选句式结构与所述主题类别对应的样本语句进行匹配，计算候选句式结构在所述主题类别中的词频；将候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算候选句式结构在所述多个主题类别中的逆文档频率。

在操作S224，当计算得到的词频和/或逆文档频率满足预设条件时，确定该候选句式结构为属于所述主题类别的特定句式结构。

例如，根据所关注的信息范围，预置N个主题类别，不同的主题类别可以表征所关注的信息范围内不同的特征，每个主题类别对应一个或多个样本语句，样本语句可以是从各网站的论坛、评论区、留言区等抓取下来的数据。获取表示待处理语句的语句数据“x₁x₂x₃x₄x₅x₆x₇x₈”，该待处理语句中共有8个字符，从左向右第1个字符为“x₁”，第2个字符为“x₂”，第3个字符为“x₃”，以此类推，……，第8个字符为“x₈”。基于滑动窗口从该待处理语句中提取至少一个片段，如果滑动窗口的长度为2，滑动窗口从左向右滑动，某一时刻“x₁x₂”落入滑动窗口内，另一时刻“x₅x₆”落入滑动窗口内，即一种情况下基于滑动窗口从待处理语句中提取出“x₁x₂”和“x₅x₆”两个片段，“x₁x₂”在待处理语句从左向右的第1位和第2位，“x₅x₆”在待处理语句从左向右的第5位和第6位，将“x₁x₂”和“x₅x₆”按照在待处理语句中的位置顺序构成候选句式结构：“x₁x₂……x₅x₆……”。对于预置的N个主题类别中的任一主题类别A，将候选句式结构“x₁x₂……x₅x₆……”与该主题类别A对应的样本语句进行匹配，计算候选句式“x₁x₂……x₅x₆……”在该主题类别A中的词频TF_A1，该词频TF_A1表示候选句式“x₁x₂……x₅x₆……”在主题类别A对应的样本语句中出现的次数，再计算候选句式“x₁x₂……x₅x₆……”在预置的N个主题类别中的逆文档频率IDF₁，该逆文档频率IDF₁用于度量候选句式“x₁x₂……x₅x₆……”在所有主题类别的普遍重要性，普遍重要性越高，该逆文档频率IDF₁越小，普遍重要性越低，该逆文档频率IDF₁越大。当计算得到的词频TF_A1和/或逆文档频率IDF₁满足预设条件时，确定该候选句式结构“x₁x₂……x₅x₆……”为属于主题类别A的特定句式结构。对于预置的N个主题类别中的任一主题类别B，可以计算候选句式“x₁x₂……x₅x₆……”在该主题类别B中的词频TF_B1，基于该词频TF_B1和上文已计算得到的逆文档频率IDF₁可知候选句式结构“x₁x₂……x₅x₆……”是否属于主题类别B。对于其他主题类别同理，在此不再赘述。在本例中，待处理语句、基于滑动窗口从待处理语句从提取出的片段、所构造得到的候选句式均是为了说明本公开的实施过程，其具体的内容形式不对本公开做出限制，如待处理语句可以是任意长度的语句，提取出的片段可以是待处理语句所包含的任意长度的、任意一个或多个片段，候选句式是基于所提取出的片段所构成的，可以有多种形式。

可见，依据本实施例可以从待处理语句中挖掘出属于预置主题类别的特定句式结构，一方面，在挖掘特定句式结构的过程中基于滑动窗口能够将偏口语化的待处理语句中的各种片段组成候选句式结构，即能够提取出可能包含口语化语句中的各种信息的句式结构，另一方面，具体利用了咨询检索和文本挖掘领域中的词频-逆文档频率技术，由预置的多个主题类别构成文档集，每个主题类别作为一个文档，主题类别所对应的样本语句作为文档中的语料，通过计算候选句式结构相对于每个主题类别的词频和候选句式结构相对于所有主题类别的逆文档频率，能够准确地找到反映主题类别的特性的相应的特定句式结构。在通过上述过程获得特定句式结构后，即可确定待处理语句所对应的主题。

更为具体地，在本公开的一个实施例中，上述操作S222基于滑动窗口从待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构包括：利用长度可变的滑动窗口在待处理语句上滑动，提取落入滑动窗口的片段；由所提取的任一片段按照在待处理语句中的位置顺序构成候选句式结构；或者，由所提取的任意多个无重叠的片段按照在待处理语句中的位置顺序构成候选句式结构。

参考图4A～4B，举例对上述操作S222进行具体说明，沿用上文中的待处理语句“x₁x₂x₃x₄x₅x₆x₇x₈”，假设滑动窗口的长度为1～5，利用滑动窗口在待处理语句上从左向右滑动，从待处理语句中提取片段。

实施例一，可以从待处理语句中提取一个片段，由这一个片段构成候选句式结构：

图4A示意性示出了根据本公开的实施例的从待处理语句提取片段的示意图。

如图4A所示，当滑动窗口的长度为1时，滑动窗口在最左边时，提取出片段“x₁”，则该片段“x₁”按照在待处理语句中的位置顺序构成候选句式结构：“x₁……”；滑动窗口向右滑动1位，提取出片段“x₂”，则该片段“x₂”按照在待处理语句中的位置顺序构成候选句式结构：“……x₂……”；以此类推，当滑动窗口滑至最右边时，提取出片段“x₈”，则该片段“x₈”按照在待处理语句中的位置顺序构成候选句式结构：“……x₈”。

改变滑动窗口的长度为2，滑动窗口在最左边时，提取出片段“x₁x₂”，则该片段“x₁x₂”按照在待处理语句中的位置顺序构成候选句式结构：“x₁x₂……”；滑动窗口向右滑动1位，提取出片段“x₂x₃”，则该片段“x₂x₃”按照在待处理语句中的位置顺序构成候选句式结构：“……x₂x₃……”；以此类推，当滑动窗口滑至最右边时，提取出片段“x₇x₈”，则该片段“x₇x₈”按照在待处理语句中的位置顺序构成候选句式结构：“……x₇x₈”。

以此类推，每次改变滑动窗口的长度后再在待处理语句上从左向右滑动该滑动窗口，每次能够提取出不同的单一片段，按照其在待处理语句中的位置顺序可以构成相应的候选句式结构。

实施例二，可以从待处理语句中提取两个片段，称为前置片段和后置片段，由前置片段和后置片段共同构成候选句式结构：

图4B示意性示出了根据本公开的另一实施例的从待处理语句提取片段的示意图。

如图4B所示，首先提取前置片段，当滑动窗口的长度为1时，滑动窗口在最左边时，提取出前置片段“x₁”，然后提取后置片段，后置片段与前置片段不能重叠，滑动窗口向右滑动1位，提取出后置片段“x₂”，则前置片段“x₁”和后置片段“x₂”按照在待处理语句中的位置顺序构成候选句式结构：“x₁x₂……”，可以看到，当前置片段和后置片段在待处理语句中相邻时，其效果相当于实施例一中提取一个片段的效果，因此在后文中谈到从待处理语句中提取多个片段构成候选句式结构时仅讨论多个不重叠且不相邻的片段。

在提取出前置片段“x₁”的前提下，再次提取后置片段，滑动窗口的长度仍为1，并再向右滑动1位，提取出后置片段“x₃”，则前置片段“x₁”和后置片段“x₃”按照在待处理语句中的位置顺序构成候选句式结构：“x₁……x₃……”。

在提取出前置片段“x₁”的前提下，再次提取后置片段，滑动窗口的长度变为2，滑动至待处理语句的第3～4位，提取出后置片段“x₃x₄”，则前置片段“x₁”和后置片段“x₃x₄”按照在待处理语句中的位置顺序构成候选句式结构：“x₁……x₃x₄……”。

以此类推，基于滑动窗口的长度变化和位置变化可以提取出各种前置片段，基于滑动窗口的长度变化和位置变化可以提取出各种后置片段，二者可以构成相应的候选句式结构，在此不再赘述。

实施例三，可以从待处理语句中提取多个片段，称为一个前置片段和多个后置片段，由一个前置片段和多个后置片段共同构成候选句式结构：该过程从待处理语句中提取前置片段的方式与实施例二中提取前置片段的方式相同，且该过程从待处理语句中提取每个后置片段的方式与实施例二中提取后置片段的方式相同，只需保证多个后置片段之间无重叠且不相邻即可，在此不再赘述。

可以看到，由于滑动窗口的长度可变且位置可变，基于滑动窗口可以从待处理语句中提取出各种片段，这些片段单独或者相互组合可以得到各种候选句式结构，即能够全面地获得偏口语化的待处理语句中可能存在的各种句式结构以进行后续判断，不会被口语化的形式所干扰，保证了后续判断特定句式结构以及确定语句主题的准确性。

沿用上文中的例子对上述操作S223进行说明：操作S223将候选句式结构与所述主题类别对应的样本语句进行匹配，计算候选句式结构在所述主题类别中的词频的过程具体为：在判断候选句式结构“x₁……x₃x₄……”是否为属于主题类别A的特定句式结构时，将候选句式结构“x₁……x₃x₄……”与主题类别A对应的每个样本语句进行匹配，如果一个样本语句中包含该句式结构“x₁……x₃x₄……”，认为该样本语句与候选句式结构“x₁……x₃x₄……”匹配成功，设候选句式结构“x₁……x₃x₄……”与主题类别A对应的样本语句匹配成功的次数为N1，主题类别A对应的样本语句的总数为N2，则候选句式结构“x₁……x₃x₄……”在主题类别A中词频为：

TF(A，“x₁……x₃x₄……”)＝N1/N2

操作S223将候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算候选句式结构在所述多个主题类别中的逆文档频率的过程具体为：将候选句式结构“x₁……x₃x₄……”与所有N个主题类别对应的样本语句进行匹配，如果一个主题类别中有至少一个样本语句与候选句式结构“x₁……x₃x₄……”匹配成功，认为该主题类别包含该候选句式结构，设包含该候选句式结构的主题类别的总数为N3，则候选句式结构“x₁……x₃x₄……”在多个主题类别中的逆文档频率为：

IDF(“x₁……x₃x₄……”)＝log(N/(N3+1))

基于计算得到的TF(A，“x₁……x₃x₄……”)和IDF(“x₁……x₃x₄……”)，可以判断候选句式结构“x₁……x₃x₄……”是否是能够表达主题类别A的特征的特定句式结构。

在本公开的一个实施例中，上述操作S224当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构包括：当所述词频和所述逆文档频率的乘积大于第一预设阈值时，确定所述候选句式结构为属于所述主题类别的特定句式结构。

例如，在上文中得到候选句式结构“x₁……x₃x₄……”在主题类别A中词频TF(A，“x₁……x₃x₄……”)和候选句式结构“x₁……x₃x₄……”在多个主题类别中的逆文档频率IDF(“x₁……x₃x₄……”)之后，将这两个值相乘，就得到了候选句式结构“x₁……x₃x₄……”相对于主题类别A的词频-逆文档频率(TF-IDF)，该词频-逆文档频率越高，表示候选句式结构“x₁……x₃x₄……”越能表达主题类别A的特征，当该词频-逆文档频率大于第一预设预置时，确定候选句式结构“x₁……x₃x₄……”属于主题类别A。同理，对于其他候选句式结构，对于其他主题类别，可以依据相同的方法判断候选句式结构是否属于主题类别，在此不再赘述。可以看到，本实施例利用词频-逆文档频率算法来计算候选句式结构与主题类别的关联关系，能够准确快速地找到待处理语句中的特定句式结构。

进一步地，作为一个可选的实施例，在上述操作S222基于滑动窗口从所述待处理语句中提取至少一个片段之前，本公开还可以对待处理语句进行预处理，去除待处理语句中的干扰信息，再基于滑动窗口从预处理后的待处理语句中提取至少一个片段以构成候选句式结构，以进一步提高从待处理语句中挖掘属于预置主题类别的特定句式结构的速度和精确度。具体地，上述对待处理语句进行预处理包括如下至少一项：当待处理语句中包括数字时，利用第一预设占位符替换所述数字；并且/或者，当待处理语句中包括日期时，利用第二预设占位符替换所述日期；并且/或者，当待处理语句中包括时间时，利用第三预设占位符替换所述时间；并且/或者，当待处理语句包括连续多个相同的词语时，删除其中一个或多个所述词语。

进一步地，作为一个可选的实施例，本公开还可以通过以下方法进一步提高从待处理语句中挖掘特定句式结构的销量，具体地，本公开在从待处理语句中提取出片段并构成候选句式结构后，如果判定该候选句式结构在全部预置主题类别中的逆文档频率小于第二预设阈值时，说明这个候选句式结构在各个主题类别中很普遍，很多主题类别中都包含该候选句式结构，即该候选句式结构不能作为单独主题类别的特征代表，因此将该候选句式结构置于黑名单中。这样，通过前期的工作将大量具有普遍性的句式结构放在黑名单中，在后续的处理中，在获得一个新的候选句式结构后，在将候选句式结构与所述主题类别对应的样本语句进行匹配以及将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配之前，先将所述候选句式结构在黑名单中进行匹配，当匹配成功时，直接确定所述候选句式结构不是特定句式结构。

可见，在黑名单中存放那些在各个主题类别中都很常见的句式结构，可能是很常用但对本方案寻找语句主题无意义的句式结构，在提取出句式结构后先看是否命中黑名单，是则直接确定不是特定句式结构，无需进行后续过程，随着黑名单内容的不断积累，能够大量地避免重复判断，提高效率。

在本公开的一个实施例中，图2所示的操作S230基于所述特定句式结构确定所述待处理语句的主题包括：当提取出属于一个主题类别的特定句式结构时，将该主题类别作为所述待处理语句的主题；当提取出属于多个主题类别的特定句式结构时，选取所对应的特定句式结构数量最多的前预设数量个主题类别作为所述待处理语句的主题。

依据本实施例，当从待处理语句中提取出属于一个主题类别的特定句式结构时，可以是提取出了多个特定句式结构，这多个特定句式结构均属于同一主题类别A，也可以是仅提取出一个特定句式结构，该特定句式结构属于主题类别A，此时，说明待处理语句中仅仅包含与主题类别A相对应的句式结构，确定待处理语句的主题为A。

当从待处理语句从提取出属于多个主题类别的特定句式结构时，可以是提取出了多个特定句式结构，这多个特定句式结构属于多个主题类别A、B和C，也可以是仅提取出一个特定句式结构，该特定句式结构属于多个主题类别A、B和C，此时，对于前一种情况，分别统计待处理语句中属于主题类别A的特定句式结构的数量n1、属于主题类别B的特定句式结构的数量n2、以及属于主题类别C的特定句式结构的数量n3，对n1、n2和n3从高至低进行排序，选取前预设数量个对应的主题类别作为待处理语句的主题。对于后一种情况，如果待处理语句仅包含一个特定句式结构，该特定句式结构属于多个主题类别A、B和C，计算该特定句式结构在主题类别A中的词频TF1、在主题类别B中的词频TF2、以及在主题类别C中的词频TF3，对TF1、TF2和TF3从高至低进行排序，选取前预设数量个对应的主题类别作为待处理语句的主题。

在本公开的另一个实施例中，图2所示的方法还包括：当从待处理语句中没有提取出属于预置主题类别的特定句式结构时，表示待处理语句中不包含能够代表任意主题类别的特征的句式结构，说明待处理语句不包含预置主题类别相关的有意义信息，即确定所述待处理语句无对应主题。

图5示意性示出了根据本公开的实施例的语句主题获取装置的框图。

如图5所示，语句主题获取装置500包括获取模块510、提取模块520和确定模块530。该语句主题获取装置500可以执行上面参考图2～图4B描述的方法，以实现对偏口语化的待处理语句的主题的获取。

获取模块510用于获取语句数据，所述语句数据表示待处理语句。

提取模块520用于从所述语句数据生成句式结构数据，所述句式结构数据表示属于预置主题类别的特定句式结构。

确定模块530用于基于所述特定句式结构确定所述待处理语句的主题。

在本公开的一个实施例中，提取模块520从语句数据生成句式结构数据包括：提取模块520用于预置多个主题类别，任一主题类别对应至少一个样本语句；基于滑动窗口从待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构；将所述候选句式结构与所述主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述主题类别中的词频；将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述多个主题类别中的逆文档频率；当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构。

其中，作为一个可选的实施例，提取模块520基于滑动窗口从所述待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构包括：提取模块520用于利用长度可变的滑动窗口在所述待处理语句上滑动，提取落入所述滑动窗口的片段；由所提取的任一片段按照在所述待处理语句中的位置顺序构成所述候选句式结构；或者，由所提取的任意多个无重叠的片段按照在所述待处理语句中的位置顺序构成所述候选句式结构。

作为一个可选的实施例，提取模块520当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构包括：提取模块520用于当所述词频和所述逆文档频率的乘积大于第一预设阈值时，确定所述候选句式结构为属于所述主题类别的特定句式结构。

在本公开的一个实施例中，确定模块530基于所述特定句式结构确定所述待处理语句的主题包括：确定模块530用于当提取出属于一个主题类别的特定句式结构时，将该主题类别作为所述待处理语句的主题；当提取出属于多个主题类别的特定句式结构时，选取所对应的特定句式结构数量最多的前预设数量个主题类别作为所述待处理语句的主题。

图6示意性示出了根据本公开的另一实施例的语句主题获取装置的框图。

如图6所示，语句主题获取装置600包括获取模块510、提取模块520、确定模块530、预处理模块540、黑名单处理模块550和辅助确定模块560。其中获取模块510、提取模块520和确定模块530在上文已经说明，重复的部分不再赘述。

在本公开的一个实施例中，预处理模块540用于在提取模块520基于滑动窗口从所述待处理语句中提取至少一个片段之前，对所述待处理语句进行预处理。预处理模块540对待处理语句进行预处理包括如下至少一项：预处理模块540用于当所述待处理语句中包括数字时，利用第一预设占位符替换所述数字；并且/或者，当所述待处理语句中包括日期时，利用第二预设占位符替换所述日期；并且/或者，当所述待处理语句中包括时间时，利用第三预设占位符替换所述时间；并且/或者，当所述待处理语句包括连续多个相同的词语时，删除其中一个或多个所述词语。

在本公开的一个实施例中，黑名单处理模块550用于当所述逆文档频率小于第二预设阈值时，将所述候选句式结构置于黑名单中。黑名单处理模块550还用于在提取单元520将所述候选句式结构与所述主题类别对应的样本语句进行匹配以及将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配之前，将所述候选句式结构在黑名单中进行匹配，当匹配成功时，直接确定所述候选句式结构不是特定句式结构。

在本公开的一个实施例中，辅助确定模块560用于当从待处理语句中没有提取出属于预置主题类别的特定句式结构时，确定该待处理语句无对应主题。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块510、提取模块520、确定模块530、预处理模块540、黑名单处理模块550、和辅助确定模块560中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块510、提取模块520、确定模块530、预处理模块540、黑名单处理模块550、和辅助确定模块560中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块510、提取模块520、确定模块530、预处理模块540、黑名单处理模块550、和辅助确定模块560中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图7示意性示出了根据本公开的实施例的适于实现上文描述的方法的计算机设备的框图。图7示出的计算机设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备700包括处理器710和计算机可读存储介质720。该计算机设备700可以执行根据本公开实施例的方法。

具体地，处理器710例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器710还可以包括用于缓存用途的板载存储器。处理器710可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质720，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质720可以包括计算机程序721，该计算机程序721可以包括代码/计算机可执行指令，其在由处理器710执行时使得处理器710执行根据本公开实施例的方法或其任何变形。

计算机程序721可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序721中的代码可以包括一个或多个程序模块，例如包括721A、模块721B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器710执行时，使得处理器710可以执行根据本公开实施例的方法或其任何变形。

根据本发明的实施例，获取模块510、提取模块520、确定模块530、预处理模块540、黑名单处理模块550、和辅助确定模块560中的至少一个可以实现为参考图7描述的计算机程序模块，其在被处理器710执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种语句主题获取方法，包括：

获取语句数据，所述语句数据表示待处理语句；

从所述语句数据生成句式结构数据，所述句式结构数据表示属于预置主题类别的特定句式结构，其中，所述从所述语句数据生成句式结构数据包括：预置多个主题类别，所述主题类别对应至少一个样本语句；基于滑动窗口从所述待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构，将所述候选句式结构与所述主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述主题类别中的词频，将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述多个主题类别中的逆文档频率，当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构；

基于所述特定句式结构确定所述待处理语句的主题。

2.根据权利要求1所述的方法，其中，所述基于滑动窗口从所述待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构包括：

利用长度可变的滑动窗口在所述待处理语句上滑动，提取落入所述滑动窗口的片段；

由所提取的任一片段按照在所述待处理语句中的位置顺序构成所述候选句式结构；或者

由所提取的任意多个无重叠的片段按照在所述待处理语句中的位置顺序构成所述候选句式结构。

3.根据权利要求1所述的方法，其中；

在所述基于滑动窗口从所述待处理语句中提取至少一个片段之前，所述方法还包括：对所述待处理语句进行预处理；

所述对所述待处理语句进行预处理包括如下至少一项：

当所述待处理语句中包括数字时，利用第一预设占位符替换所述数字；并且/或者

当所述待处理语句中包括日期时，利用第二预设占位符替换所述日期；并且/或者

当所述待处理语句中包括时间时，利用第三预设占位符替换所述时间；并且/或者

当所述待处理语句包括连续多个相同的词语时，删除其中一个或多个所述词语。

4.根据权利要求1所述的方法，其中，所述当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构包括：

当所述词频和所述逆文档频率的乘积大于第一预设阈值时，确定所述候选句式结构为属于所述主题类别的特定句式结构。

5.根据权利要求1所述的方法，还包括：

当所述逆文档频率小于第二预设阈值时，将所述候选句式结构置于黑名单中；

在将所述候选句式结构与所述主题类别对应的样本语句进行匹配以及将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配之前，将所述候选句式结构在黑名单中进行匹配，当匹配成功时，直接确定所述候选句式结构不是特定句式结构。

6.根据权利要求1所述的方法，其中，所述基于所述特定句式结构确定所述待处理语句的主题包括：

当提取出属于一个主题类别的特定句式结构时，将该主题类别作为所述待处理语句的主题；

当提取出属于多个主题类别的特定句式结构时，选取所对应的特定句式结构数量最多的前预设数量个主题类别作为所述待处理语句的主题。

7.根据权利要求1所述的方法，还包括：

当从所述待处理语句中没有提取出属于预置主题类别的特定句式结构时，确定所述待处理语句无对应主题。

8.一种语句主题获取装置，包括：

获取模块，用于获取语句数据，所述语句数据表示待处理语句；

提取模块，用于从所述语句数据生成句式结构数据，所述句式结构数据表示属于预置主题类别的特定句式结构，其中，所述从所述语句数据生成句式结构数据包括：预置多个主题类别，所述主题类别对应至少一个样本语句；基于滑动窗口从所述待处理语句中提取至少一个片段，将所提取的片段按照在所述待处理语句中的位置顺序构成候选句式结构，将所述候选句式结构与所述主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述主题类别中的词频，将所述候选句式结构与所述多个主题类别对应的样本语句进行匹配，计算所述候选句式结构在所述多个主题类别中的逆文档频率，当所述词频和/或所述逆文档频率满足预设条件时，确定所述候选句式结构为属于所述主题类别的特定句式结构；

确定模块，用于基于所述特定句式结构确定所述待处理语句的主题。

9.一种计算机设备，包括处理器和存储器；

所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取语句数据，所述语句数据表示待处理语句；

基于所述特定句式结构确定所述待处理语句的主题。