CN105302797B - 识别文本题材的方法和装置 - Google Patents

识别文本题材的方法和装置 Download PDF

Info

Publication number
CN105302797B
CN105302797B CN201510811104.5A CN201510811104A CN105302797B CN 105302797 B CN105302797 B CN 105302797B CN 201510811104 A CN201510811104 A CN 201510811104A CN 105302797 B CN105302797 B CN 105302797B
Authority
CN
China
Prior art keywords
subject matter
text
original
cutting
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510811104.5A
Other languages
English (en)
Other versions
CN105302797A (zh
Inventor
费浩峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510811104.5A priority Critical patent/CN105302797B/zh
Publication of CN105302797A publication Critical patent/CN105302797A/zh
Application granted granted Critical
Publication of CN105302797B publication Critical patent/CN105302797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了识别文本题材的方法和装置。所述识别文本题材的方法的一具体实施方式包括:接收待识别文本;根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;根据匹配结果识别出所述待识别文本的题材。该实施方式能够识别出更多表达形式的文本的题材。

Description

识别文本题材的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及识别文本题材的方法和装置。
背景技术
目前,随着互联网行业的迅速发展,互联网新闻逐渐成为大众的主要阅读来源。为了更好地引导用户阅读、或者为用户的决策(例如购买股票)提供参考,如何识别出新闻文本的题材(即主题、概念)成为目前需要解决的问题。现有技术中识别文本的题材的方法是:通过将文本与题材库中的题材文本进行匹配,根据匹配到的题材文本来识别文本的题材。
然而,在实际的新闻文本中,题材的表达方式是多种多样的,大部分情况下不能与题材库中题材文本的表达形式完全相同。因此,采用现有技术只能识别出与题材文本的表达形式完全相同的文本的题材,而无法识别出其它表达形式的文本的题材。
发明内容
本申请的目的在于提出一种识别文本题材的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种识别文本题材的方法,所述方法包括:接收待识别文本;根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;根据匹配结果识别出所述待识别文本的题材。
在一些实施例中,所述根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材集合中匹配与所述待识别文本对应的题材信息,包括:将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配;如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文本对应的题材信息;如果没有匹配到原始题材文本,则将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配;如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为所述待识别文本对应的题材信息。
在一些实施例中,所述将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配,包括:通过最大匹配算法将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配。
在一些实施例中,所述将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配,包括:根据各个题材切分文本中的字符以及字符间的前后关系,将所述待识别文本与各个题材切分文本进行匹配。
在一些实施例中,在接收待识别文本之前,所述方法还包括:根据预先收集的原始题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本;在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本;将各个原始题材文本对应的题材信息加入所述题材信息集合中,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本。
在一些实施例中,所述在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本,包括:根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;针对每一个原始题材文本,将所述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与所述原始题材文本相关联的题材切分文本。
在一些实施例中,所述根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重,包括:获取各个原始题材文本以及各个题材切分文本在所述基准文本集合中出现的频次;针对每个原始题材文本,将所述原始题材文本对应的各个题材切分文本的所述频次与所述原始题材文本的所述频次的比值分别作为各个题材切分文本的权重。
第二方面,本申请提供了一种识别文本题材的装置,所述装置包括:
待识别文本接收单元,用于接收待识别文本;题材信息匹配单元,用于根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;文本题材识别单元,用于根据匹配结果识别出所述待识别文本的题材。
在一些实施例中,所述题材信息匹配单元包括:原始题材文本匹配子单元,用于将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配,如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文本对应的题材信息;题材切分文本匹配子单元,用于在没有匹配到原始题材文本时,将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配,如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为所述待识别文本对应的题材信息。
在一些实施例中,所述原始题材文本匹配子单元进一步配置用于通过最大匹配算法将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配。
在一些实施例中,所述题材切分文本匹配子单元进一步配置用于根据各个题材切分文本中的字符以及字符间的前后关系,将所述待识别文本与各个题材切分文本进行匹配。
在一些实施例中,所述装置还包括:题材切分文本获取单元,用于根据预先收集的原始题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本;题材切分文本选择单元,用于在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本;题材信息添加单元,用于将各个原始题材文本对应的题材信息加入所述题材信息集合中,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本。
在一些实施例中,所述题材切分文本选择单元包括:权重获取子单元,用于根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;题材切分文选择子单元,用于针对每一个原始题材文本,将所述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与所述原始题材文本相关联的题材切分文本。
在一些实施例中,所述权重获取子单元包括:频次获取模块,用于获取各个原始题材文本以及各个题材切分文本在所述基准文本集合中出现的频次;权重计算模块,用于针对每个原始题材文本,将所述原始题材文本对应的各个题材切分文本的所述频次与所述原始题材文本的所述频次的比值分别作为各个题材切分文本的权重。
本申请提供的识别文本题材的方法和装置,通过根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,并根据匹配结果识别出所述待识别文本的题材,增加了题材切分文本作为匹配对象,从而能够识别出更多表达形式的文本的题材。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的识别文本题材的方法的一个实施例的流程图;
图3是根据本申请的识别文本题材的方法的另一个实施例的流程图;
图4是根据本申请的识别文本题材的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的识别文本题材的方法或识别文本题材的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如浏览器应用、金融类应用、资讯类应用等。
终端设备101、102、103可以是支持阅读类应用的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的资讯类应用、金融类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的识别文本题材的方法通常由服务器105执行。相应地,识别文本题材的装置通常设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本申请的识别文本题材的方法的一个实施例的流程200。
如图2所示,本实施例的识别文本题材的方法包括以下步骤:
步骤201,接收待识别文本。
在本实施例中,识别文本题材的方法运行于其上的电子设备(例如图1所示的服务器)可以通过读取存储在计算机可读取的存储介质(例如数据库)中的待识别文本集合来接收识别文本。其中,上述待识别文本集合中的待识别文本是预先收集的,例如,预先收集的新闻文本、新闻标题、新闻文本中的句子等。
步骤202,根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在上述题材信息集合中匹配与上述待识别文本对应的题材信息。
其中,上述题材信息包括以下信息:原始题材文本、与上述原始题材文本相关联的题材切分文本,上述题材切分文本通过对上述原始题材文本进行切分后获得。
在本实施例中,服务器可以将上述题材信息集合中的题材信息的原始题材文本和题材切分文本一同加入一个词典或词条库中,再将上述待识别文本与上述词典或词条库中的词条进行匹配。匹配成功后,将匹配到的词条对应的题材信息作为与上述待识别文本对应的题材信息。其中,上述原始题材文本可以为有人工收集的现有题材,例如“西藏50周年”、“北京冬奥会”、“两会一带一路”等。以上述原始题材文本为例,与上述原始题材文本关联的题材切分文本则分别可以为“西藏50周年”、“北京冬奥会”、“两会一带一路”。匹配时,允许词条中的空格字符与任意长度的任何字符匹配。例如,“西藏50周年”可以与“西藏解放50周年”匹配成功,之后,将原始题材文本为:“西藏50周年”、题材切分文本为:“西藏50周年”的题材信息作为与“西藏解放50周年”对应的题材信息。
步骤203,根据匹配结果识别出上述待识别文本的题材。
在本实施例中,服务器可以将匹配到的题材信息的原始题材文本作为上述待识别文本的题材。沿用步骤202的例子,在匹配到原始题材文本为:“西藏50周年”、题材切分文本为:“西藏50周年”的题材信息之后,就可以识别出待识别文本“西藏解放50周年”的题材为西藏50周年。
在本实施例的一些可选的实现方式中,步骤202可以包括:将上述待识别文本与上述题材信息集合中的各个题材信息的原始题材文本进行匹配;如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为上述与上述待识别文本对应的题材信息;如果没有匹配到原始题材文本,则将上述待识别文本与上述题材信息集合中的各个题材信息的题材切分文本进行匹配;如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为上述待识别文本对应的题材信息。
其中,上述将上述待识别文本与上述题材信息集合中的各个题材信息的原始题材文本进行匹配具体可以包括:通过最大匹配算法将上述待识别文本与上述题材信息集合中的各个题材信息的原始题材文本进行匹配。其中,最大匹配算法可以为正向最大匹配算法,也可以为逆向最大匹配算法。
此外,上述将上述待识别文本与上述题材信息集合中的各个题材信息的题材切分文本进行匹配具体可以包括:根据各个题材切分文本中的字符以及字符间的前后关系,将上述待识别文本与各个题材切分文本进行匹配。其中,字符间的前后关系是指字符排列顺序。例如,以题材切分文本“西藏50周年”为例,服务器可以建立如下结构的字典:
当前字符 下一字符1 下一字符2
“西” “藏”
“藏” “5” “5”
“5” “0”
“0” “周”
“周” “年”
“年”
在将待识别文本“西藏解放50周年”与其进行匹配时,服务器根据当前字符将待识别文本中的“西”与字典中的第一行匹配成功,得到下一字符1为“藏”;于是待识别文本中的“西”的下一字符“藏”匹配成功;通过上述字典得到“藏”的下一字符1为“5”,而待识别文本中的“藏”的下一字符为“解”,不匹配,此时就取“藏”的下一字符2为“5”,说明“藏”的下一字符为空格;然后将待识别文本中在“解”之后的字符依次与下一字符2“5”匹配,直到匹配成功,于是,待识别文本中的“5”匹配成功;之后,按照上述算法继续根据下一字符1进行匹配,所有字符匹配成功后,则确定待识别文本“西藏解放50周年”与题材切分文本“西藏50周年”匹配成功。
本实施例的示例性应用场景可以为:通过对各个新闻文本进行题材识别,得到各个题材的热度。其中,题材所属的新闻文本越多,则题材的热度越高。从而在用户选择购买股票时,可以根据题材的热度来决策购买的哪种题材的股票。此外,还可以使用户可以依据其感兴趣的题材进行新闻筛选。
本实施例提供的识别文本题材的方法,通过根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在上述题材信息集合中匹配与上述待识别文本对应的题材信息,并根据匹配结果识别出上述待识别文本的题材,增加了题材切分文本作为匹配对象,从而能够识别出更多表达形式的文本的题材。
进一步参考图3,图3示出了根据本申请的识别文本题材的方法的另一个实施例的流程300。
如图3所示,本实施例的识别文本题材的方法包括以下步骤:
步骤301,根据预先收集的原始题材文本集合构建N-Gram模型,得到上述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本。
在本实施例中,上述原始题材文本集合可以为有人工收集的现有题材,例如“西藏50周年”、“冬奥会”、“两会一带一路”等。识别文本题材的方法运行于其上的电子设备(例如图1所示的服务器)可以通过根据上述原始题材文本集合来构建N-Gram模型来得到上述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本。其中,N-Gram模型是常用的一种语言模型,该模型基于这样一种假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。其中,N为大于1的任意正整数。通过步骤301,服务器可以获取到每个原始题材文本对应的多个题材切分文本。例如,可以获得原始题材文本“冬奥会”对应的题材切分文本可以为:“冬奥会”、“冬奥会”、“冬奥会”、“冬奥会”。
步骤302,在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本。
在本实施例中,服务器可以采用各种自定义或现有的算法/规则在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本。例如,随机选择。
步骤303,将各个原始题材文本对应的题材信息加入上述题材信息集合中。
其中,上述题材信息包括以下信息:原始题材文本、与上述原始题材文本相关联的题材切分文本。
在本实施例中,服务器可以通过将每个题材信息作为一条题材数据存入数据库中的方法,将各个原始题材文本对应的题材信息加入上述题材信息集合中。其中,上述题材数据包括以下信息:原始题材文本、与上述原始题材文本相关联的题材切分文本。
步骤304,接收待识别文本。
在本实施例中,步骤304的具体处理可参考上述对图2对应实施例中步骤201的详细描述,在此不再赘述。
步骤305,根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在上述题材信息集合中匹配与上述待识别文本对应的题材信息。
其中,上述题材信息包括以下信息:原始题材文本、与上述原始题材文本相关联的题材切分文本,上述题材切分文本通过对上述原始题材文本进行切分后获得。
在本实施例中,步骤305的具体处理可参考上述对图2对应实施例中步骤202的详细描述,在此不再赘述。
步骤306,根据匹配结果识别出上述待识别文本的题材。
在本实施例中,步骤306的具体处理可参考上述对图2对应实施例中步骤203的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,步骤302可以包括:根据预先收集的基准文本集合、各个原始题材文本和上述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;针对每一个原始题材文本,将上述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与上述原始题材文本相关联的题材切分文本。其中,基准文本集合中的基准文本可以是预先收集的文本(例如新闻文本)。
具体地,上述根据预先收集的基准文本集合、各个原始题材文本和上述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重可以包括:获取各个原始题材文本以及各个题材切分文本在上述基准文本集合中出现的频次;针对每个原始题材文本,将上述原始题材文本对应的各个题材切分文本的上述频次与上述原始题材文本的上述频次的比值分别作为各个题材切分文本的权重。
通过上述实现方式,使得服务器选择出了更合理、适用的题材切分文本作为与原始题材文本相关联的题材切分文本,从而使后续的识别结果更准确。
从图3中可以看出,与图2对应的实施例相比,本实施例中的识别文本题材的方法的流程300扩展了收集题材信息的步骤。由此,本实施例描述的方案可以获得包括更适用的题材切分文本的题材信息,从而能够识别出更多的表达形式的文本的题材。
继续参考图4,作为对上述各图所示方法的实现,本申请提供了一种识别文本题材的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于服务器中。
如图4所示,本实施例的识别文本题材的装置400包括:待识别文本接收单元401、题材信息匹配单元402以及文本题材识别单元403。其中,待识别文本接收单元401,用于接收待识别文本;题材信息匹配单元402,用于根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在上述题材信息集合中匹配与上述待识别文本对应的题材信息,其中,上述题材信息包括以下信息:原始题材文本、与上述原始题材文本相关联的题材切分文本,上述题材切分文本通过对上述原始题材文本进行切分后获得;文本题材识别单元403,用于根据匹配结果识别出上述待识别文本的题材。
在本实施例中,待识别文本接收单元401、题材信息匹配单元402以及文本题材识别单元403的具体处理可分别参考上述对图2对应实施例中步骤201、步骤202以及步骤203的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,题材信息匹配单元402可以包括:原始题材文本匹配子单元4021,用于将上述待识别文本与上述题材信息集合中的各个题材信息的原始题材文本进行匹配,如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为上述与上述待识别文本对应的题材信息;题材切分文本匹配子单元4022,用于在没有匹配到原始题材文本时,将上述待识别文本与上述题材信息集合中的各个题材信息的题材切分文本进行匹配,如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为上述待识别文本对应的题材信息。
其中,原始题材文本匹配子单元4021可以进一步配置用于通过最大匹配算法将上述待识别文本与上述题材信息集合中的各个题材信息的原始题材文本进行匹配。
此外,题材切分文本匹配子单元可以进一步配置用于根据各个题材切分文本中的字符以及字符间的前后关系,将上述待识别文本与各个题材切分文本进行匹配。
上述实现方式的具体处理可参考上述对图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例的识别文本题材的装置还可以包括:题材切分文本获取单元404,用于根据预先收集的原始题材文本集合构建N-Gram模型,得到上述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本;题材切分文本选择单元405,用于在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本;题材信息添加单元406,用于将各个原始题材文本对应的题材信息加入上述题材信息集合中,其中,上述题材信息包括以下信息:原始题材文本、与上述原始题材文本相关联的题材切分文本。
其中,题材切分文本获取单元404、题材切分文本选择单元405和题材信息添加单元406的具体处理可分别参考上述对图3对应实施例中步骤301、步骤302以及步骤303的详细描述,在此不再赘述。
基于上述实现方式,在本实施例的一些可选的实现方式中,题材切分文本选择单元405可以包括:权重获取子单元4051,用于根据预先收集的基准文本集合、各个原始题材文本和上述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;题材切分文选择子单元4052,用于针对每一个原始题材文本,将上述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与上述原始题材文本相关联的题材切分文本。
具体地,权重获取子单元4051可以包括:频次获取模块(图中未示出),用于获取各个原始题材文本以及各个题材切分文本在上述基准文本集合中出现的频次;权重计算模块(图中未示出),用于针对每个原始题材文本,将上述原始题材文本对应的各个题材切分文本的上述频次与上述原始题材文本的上述频次的比值分别作为各个题材切分文本的权重。
上述实现方式的具体处理及其所带来的技术效果可参考上述对图3对应实施例中相应实现方式的详细描述,在此不再赘述。
本领域技术人员可以理解,上述识别文本题材的装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括待识别文本接收单元、题材信息匹配单元以及文本题材识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,文本题材识别单元还可以被描述为“识别文本的题材的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收待识别文本;根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;根据匹配结果识别出所述待识别文本的题材。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种识别文本题材的方法,其特征在于,所述方法包括:
接收待识别文本;
根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;
根据匹配结果识别出所述待识别文本的题材。
2.根据权利要求1所述的方法,其特征在于,所述根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材集合中匹配与所述待识别文本对应的题材信息,包括:
将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配;
如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文本对应的题材信息;
如果没有匹配到原始题材文本,则将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配;
如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为所述待识别文本对应的题材信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配,包括:
通过最大匹配算法将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配。
4.根据权利要求2所述的方法,其特征在于,所述将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配,包括:
根据各个题材切分文本中的字符以及字符间的前后关系,将所述待识别文本与各个题材切分文本进行匹配。
5.根据权利要求1-4任一所述的方法,其特征在于,在接收待识别文本之前,所述方法还包括:
根据预先收集的原始题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本;
在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本;
将各个原始题材文本对应的题材信息加入所述题材信息集合中,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本。
6.根据权利要求5所述的方法,其特征在于,所述在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本,包括:
根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;
针对每一个原始题材文本,将所述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与所述原始题材文本相关联的题材切分文本。
7.根据权利要求6所述的方法,其特征在于,所述根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重,包括:
获取各个原始题材文本以及各个题材切分文本在所述基准文本集合中出现的频次;
针对每个原始题材文本,将所述原始题材文本对应的各个题材切分文本的所述频次与所述原始题材文本的所述频次的比值分别作为各个题材切分文本的权重。
8.一种识别文本题材的装置,其特征在于,所述装置包括:
待识别文本接收单元,用于接收待识别文本;
题材信息匹配单元,用于根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;
文本题材识别单元,用于根据匹配结果识别出所述待识别文本的题材。
9.根据权利要求8所述的装置,其特征在于,所述题材信息匹配单元包括:
原始题材文本匹配子单元,用于将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配,如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文本对应的题材信息;
题材切分文本匹配子单元,用于在没有匹配到原始题材文本时,将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配,如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为所述待识别文本对应的题材信息。
10.根据权利要求9所述的装置,其特征在于,所述原始题材文本匹配子单元进一步配置用于通过最大匹配算法将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配。
11.根据权利要求9所述的装置,其特征在于,所述题材切分文本匹配子单元进一步配置用于根据各个题材切分文本中的字符以及字符间的前后关系,将所述待识别文本与各个题材切分文本进行匹配。
12.根据权利要求8-11任一所述的装置,其特征在于,所述装置还包括:
题材切分文本获取单元,用于根据预先收集的原始题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本;
题材切分文本选择单元,用于在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本;
题材信息添加单元,用于将各个原始题材文本对应的题材信息加入所述题材信息集合中,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本。
13.根据权利要求12所述的装置,其特征在于,所述题材切分文本选择单元包括:
权重获取子单元,用于根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;
题材切分文选择子单元,用于针对每一个原始题材文本,将所述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与所述原始题材文本相关联的题材切分文本。
14.根据权利要求13所述的装置,其特征在于,所述权重获取子单元包括:
频次获取模块,用于获取各个原始题材文本以及各个题材切分文本在所述基准文本集合中出现的频次;
权重计算模块,用于针对每个原始题材文本,将所述原始题材文本对应的各个题材切分文本的所述频次与所述原始题材文本的所述频次的比值分别作为各个题材切分文本的权重。
CN201510811104.5A 2015-11-20 2015-11-20 识别文本题材的方法和装置 Active CN105302797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510811104.5A CN105302797B (zh) 2015-11-20 2015-11-20 识别文本题材的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510811104.5A CN105302797B (zh) 2015-11-20 2015-11-20 识别文本题材的方法和装置

Publications (2)

Publication Number Publication Date
CN105302797A CN105302797A (zh) 2016-02-03
CN105302797B true CN105302797B (zh) 2019-02-01

Family

ID=55200076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510811104.5A Active CN105302797B (zh) 2015-11-20 2015-11-20 识别文本题材的方法和装置

Country Status (1)

Country Link
CN (1) CN105302797B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6165657B2 (ja) * 2014-03-20 2017-07-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于电子政务主题词表的中文匹配方法;杨芳;《情报方法》;20050831(第8期);第13-15页

Also Published As

Publication number Publication date
CN105302797A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
US11062089B2 (en) Method and apparatus for generating information
US10262080B2 (en) Enhanced search suggestion for personal information services
CN105095394B (zh) 网页生成方法和装置
CN106845999A (zh) 风险用户识别方法、装置和服务器
CN109190124B (zh) 用于分词的方法和装置
US9477771B2 (en) Commerce oriented uniform resource locater (URL) shortener
CN106960030A (zh) 基于人工智能的推送信息方法及装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN108228906B (zh) 用于生成信息的方法和装置
CN107731229A (zh) 用于识别语音的方法和装置
CN107169077A (zh) 用于推送信息的方法和装置
CN106899750A (zh) 基于卡片的信息展示方法、信息展示业务的处理方法及装置
CN107943895A (zh) 信息推送方法和装置
CN105929979B (zh) 长句输入方法和装置
CN107783962A (zh) 用于查询指令的方法及装置
CN106681598A (zh) 信息输入方法和装置
CN108073708A (zh) 信息输出方法和装置
CN107346344A (zh) 文本匹配的方法和装置
CN105760523A (zh) 一种信息推送方法和装置
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN109840534B (zh) 处理事件的方法和装置
CN107656910A (zh) 用于生成表单的方法和装置
CN106815224A (zh) 服务获取方法和装置
CN108256078B (zh) 信息获取方法和装置
CN108038172A (zh) 基于人工智能的搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160203

Assignee: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

Assignor: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Contract record no.: X2020990000190

Denomination of invention: Method and device for recognizing text theme

Granted publication date: 20190201

License type: Common License

Record date: 20200417