CN106202050A - 主题信息获取方法、装置和电子设备 - Google Patents

主题信息获取方法、装置和电子设备 Download PDF

Info

Publication number
CN106202050A
CN106202050A CN201610565513.6A CN201610565513A CN106202050A CN 106202050 A CN106202050 A CN 106202050A CN 201610565513 A CN201610565513 A CN 201610565513A CN 106202050 A CN106202050 A CN 106202050A
Authority
CN
China
Prior art keywords
text
theme
analyzed
descriptor
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610565513.6A
Other languages
English (en)
Other versions
CN106202050B (zh
Inventor
赵伟
徐超
王磊
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201610565513.6A priority Critical patent/CN106202050B/zh
Publication of CN106202050A publication Critical patent/CN106202050A/zh
Application granted granted Critical
Publication of CN106202050B publication Critical patent/CN106202050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种主题信息获取方法、装置和电子设备,其中,该主题信息获取方法,包括以下步骤:提取待分析文本集合的主题,其中,所述主题包括多个主题词;将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。本发明的主题信息获取方法,能够提高主题信息的获取效率及准确率。

Description

主题信息获取方法、装置和电子设备
技术领域
本发明涉及信息技术领域,特别涉及一种主题信息获取方法、装置和电子设备。
背景技术
随着互联网的繁荣以及各种自媒体的迅猛发展,互联网上的文本信息呈指数级增长趋势,这将导致用户将越来越难以快速了解互联网上的热点话题。
目前,可使用主题提取软件包对大量文本进行主题提取,得到文本中的主题词。然而,提取出的主题是用一系列词来表达的,缺少语义连贯性,难以理解,甚至出现理解偏差等问题,因此,目前的信息获取效率和准确率较低。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种主题信息获取方法,能够提高主题信息的获取效率及准确率。
本发明的第二个目的在于提出一种主题信息获取装置。
本发明的第三个目的在于电子设备。
为达上述目的,根据本发明第一方面实施例提出了一种主题信息获取方法,包括以下步骤:提取待分析文本集合的主题,其中,所述主题包括多个主题词;以及
将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
本发明实施例的主题信息获取方法,通过提取待分析文本集合的主题,并将主题与待分析文本集合中的文本分别进行匹配,以从待分析文本集合中筛选出用于描述主题的文本,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
本发明第二方面实施例提出了一种主题信息获取装置,包括:
提取模块,用于提取待分析文本集合的主题,其中,所述主题包括多个主题词;以及
筛选模块,用于将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
本发明实施例的主题信息获取装置,通过提取待分析文本集合的主题,并将主题与待分析文本集合中的文本分别进行匹配,以从待分析文本集合中筛选出用于描述主题的文本,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
本发明第三方面实施例提出了一种电子设备,包括本发明第二方面实施例的主题信息获取装置。
本发明实施例的电子设备,通过提取待分析文本集合的主题,并将主题与待分析文本集合中的文本分别进行匹配,以从待分析文本集合中筛选出用于描述主题的文本,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的主题信息获取方法的流程图;
图2为根据本发明另一个实施例的主题信息获取方法的流程图;
图3为根据本发明另一个实施例的主题信息获取方法的流程图;
图4为根据本发明另一个实施例的主题信息获取方法的流程图;
图5为根据本发明一个实施例的主题信息获取装置的结构示意图;
图6为根据本发明另一个实施例的主题信息获取装置的结构示意图;
图7为根据本发明另一个实施例的主题信息获取装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的主题信息获取方法、装置和电子设备。
图1为根据本发明一个实施例的主题信息获取方法的流程图。
如图1所示,根据本发明实施例的主题信息获取方法,包括以下步骤:
S101,提取待分析文本集合的主题,其中,所述主题包括多个主题词。
在本发明的一个实施例中,可通过对待分析文本集合中每个文本分别进行分词,并去除分词结果中无实际意义词语,然后统计其余各个词语在待分析文本集合中的出现频率,进而选择出现频率较高的部分词语作为待分析文本集合的主题中的多个主题词。
在本发明的另一个实施例中,为了提高主题提取速度,减少数据处理量,可通过调用预设的主题提取软件包接口,将待分析文本集合导入主题提取软件包,然后通过主题提取软件包进行主题建模,提取待分析文本集合的主题。其中,主题提取软件包为预先建立的用于提取文本主题的应用程序包。
S102,将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
在本发明的实施例中,在提取出待分析文本集合的主题之后,可根据待分析文本集合中各个文本与所述主题的匹配度筛选出用于描述主题的文本。其中,匹配度越高,越符合对主题的描述。因此,可将待分析文本集合中与主题匹配度最高的文本作为用于描述主题的信息。
在本发明的实施例中,可分别计算所述主题与待分析文本集合中每个文本的匹配度;根据所述匹配度从所述待分析文本集合中筛选出用于描述所述主题的文本。
其中,主题与每个文本的匹配度可由文本中的词语与主题中的主题词的匹配情况确定。具体地,如图2所示,可通过步骤S201-S203计算主题与每个原始文本的匹配度。其中,
S201,对所述待分析文本集合中每个文本进行分词处理,以得到每个文本对应的多个分词。
S202,将各文本对应的多个分词与所述主题中的多个主题词分别进行比对,以确定每个文本中包含主题词的数量。
也就是说,对于每个主题词,可将其与待分析文本集合中每个文本中的每个分词一一进行比对,如果存在与该主题词一致的分词,则确定该文本中包括该主题词。进而,通过与每个主题词的分别比对,可分别确定各个主题词是否包括在该文本中,进而得到该文本中包含的主题词的数量。以此类推,可确定每个文本中包含主题词的数量。
S203,根据每个文本中包含主题词的数量、每个文本中的分词总数以及所述主题中主题词的总数,计算所述主题与每个文本的匹配度。
在本发明的实施例中,可通过以下公式计算主题与每个文本的匹配度:
匹配度=(匹配词数/主题词数)×(匹配词数/文本总词数)×100%,
其中,匹配词数为文本中包含主题词的数量,主题词数为主题中所包括的主题词的数量,文本总词数为文本分词后得到词语数量。
本发明实施例的主题信息获取方法,通过提取待分析文本集合的主题,并将主题与待分析文本集合中的文本分别进行匹配,以从待分析文本集合中筛选出用于描述主题的文本,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
在本发明的一个实施例中,为了提高主题信息获取的效率,可在将主题与待分析文本集合中各文本进行匹配之前,对待分析集合进行筛选,从而,只需将主题词与筛选出的部分文本进行匹配,减少了匹配过程所需的时间。因此,根据本发明的一个实施例,如图3所示,可包括步骤S301-S303。
其中,步骤301与图1所示实施例中步骤S101相同。
S302,从所述待分析文本集合中分别获取所述多个主题词所属的文本。
在本发明的一个实施例中,可根据传统的方法查找主题中的多个主题词所述的文本,得到该主题所属的文本。具体地,可分别针对主题中的每个主题词,查询预先建立的文本数据库,并将查询到的包含该主题词的文本作为该主题词所属的文本。
其中,预先建立的文本数据库可以是根据主题提取软件包的提取结果建立的。具体地,可根据主题提取软件包的提取结果,确定提取出的主题所用到的所有文本,存入SQL(Structured Query Language,结构化查询语言)数据库,该SQL数据库即为预先建立的文本数据库。
在本发明的一个实施例中,为了实现方便快速查找,可根据预先建立的分词与文本的索引关系分别查询所述主题词所属的文本。也就是说,可预先建立各词语与文本的索引关系,即对应关系,进而,可根据该索引关系直接查询到主题词所属的文本。
其中,分词与文本的索引关系为预先建立的。因此,本发明的实施例中,还可包括建立分词与文本的索引关系的过程。也就是说,可对所述待分析文本集合中的文本进行分词,并建立各分词与各自所属的文本的索引关系。具体地,可导入用于提取主题的所有文本(即上述待分析文本集合),在导入过程中,可对每个文本进行分词,并为每个分词建立与其所属的文本的索引关系,由此,完成分词与文本的索引关系的建立。
在本发明的一个实施例中,可将分词与文本的索引关系导入Solr(一个独立的企业级搜索应用服务器),当需要查找主题中各主题词所属的文本时,可通过Solr直接从上述索引关系中查找到各主题词对应的文本,实现过程简单、方便,且查找速度快。
S303,将所述主题与所述多个主题词所属的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
举例来说,通过主题提取软件包提取到的一个主题包括以下10个主题词:
衣服质量太差破地方A差撕坏地方B没面子,
这10个主题词所属的文本分别为以下文本1-10:
1、看完这一期我只能说XX品牌的衣服真的买不得质量太差一扯就坏了。
根据上述方式,计算得到文本1与主题的匹配度为:9.42%
2、地方A制造的衣服质量上要跟进!!!!!!!!!地方B的节目中拉扯来来去去也不见破掉!
根据上述方式,计算得到文本2与主题的匹配度为:30.63%
3、节目M的制作服装质量真差!节目N这么多年了也没有看见过几次衣服一拉就破的情况。
根据上述方式,计算得到文本3与主题的匹配度为:14.71%
4、就这一节目就透露了咱们地方A的衣服品质不咋地,地方B的节目N那衣服咋扯都没事地方A的撤了两下破了,哎!
根据上述方式,计算得到文本4与主题的匹配度为:12.5%
5、咳咳,地方A质量,衣服没扯几下就破了,看了这么久节目N没见过扯破衣服的?
根据上述方式,计算得到文本5与主题的匹配度为:13.16%
6、只想说一句,衣服质量太差咯。在地方B怎么没见衣服被扯坏。地方B的友人来的待遇----衣服被扯坏。唉
根据上述方式,计算得到文本6与主题的匹配度为:24.5%
7、真心吐槽团队的衣服居然那么差劲
根据上述方式,计算得到文本7与主题的匹配度为:5.71%
8、回复@那颗肉丸子:我是指衣服的质量
根据上述方式,计算得到文本8与主题的匹配度为:10%
9、本来没什么期待,但还是有惊喜吧,唯一想吐槽的是衣服质量能好点吗~哎。第一期就弄了指压板,飞椅,撕名牌啊~还有能力者~嘻嘻
根据上述方式,计算得到文本9与主题的匹配度为:3.91%
10、地方A版的节目N好凸显出一个事实!人家在地方B撕了四年的名牌,都没几件衣服坏过,来我们地方A一撕,就烂几件!但也有可能是节目组故意的,这样就显得这个节目太做作了!但能看见能力者肌肉还是很好的!
根据上述方式,计算得到文本10与主题的匹配度为:5.95%
根据以上匹配度分析,发现文本2的匹配度最高,因此,可将文本2作为该主题的描述信息。
由此,可将原有的由多个独立的词语表示的主题通过更符合自然语言习惯的文本句子2 来描述,从而,主题通过自然语言描述,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
本发明实施例的主题信息获取方法,通过提取待分析文本集合的主题,并从待分析文本集合中分别获取主题中的多个主题词所属的文本,并将主题与多个主题词所属的文本进行匹配,以从多个主题词所属的文本中筛选出用于描述主题的文本息,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够进一步提高主题信息的获取效率及准确率。
图4为根据本发明另一个实施例的主题信息获取方法的流程图。
如图4所示,根据本发明实施例的主题信息获取方法,包括步骤S401-S403。
其中,步骤S401-S402与图1所示步骤S101-S102相同。
S403,将所述主题以及用于描述所述主题的文本存储至主题数据库。
从而,可将获取到的主题以及用于描述该主题的文本存储至主题数据库,建立用于存储不同主题及用于描述各个主题的文本的数据库,以便后续在需要获取主题时,可从主题库中直接查询用于描述该主题的文本,提高查询效率。
与上述主题信息获取方法实施例相对应,本发明还提出一种主题信息获取装置。
图5为根据本发明一个实施例的主题信息获取装置的结构示意图。
如图5所示,根据本发明实施例的主题信息获取装置,包括:提取模块10和筛选模块20。
具体地,提取模块10用于提取待分析文本集合的主题,其中,所述主题包括多个主题词。
在本发明的一个实施例中,提取模块10可通过对待分析文本集合中每个文本分别进行分词,并去除分词结果中无实际意义词语,然后统计其余各个词语在待分析文本集合中的出现频率,进而选择出现频率较高的部分词语作为待分析文本集合的主题中的多个主题词。
在本发明的另一个实施例中,为了提高主题提取速度,减少数据处理量,提取模块10可通过调用预设的主题提取软件包接口,将待分析文本集合导入主题提取软件包,然后通过主题提取软件包进行主题建模,提取待分析文本集合的主题。其中,主题提取软件包为预先建立的用于提取文本主题的应用程序包。
筛选模块20用于将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
在本发明的实施例中,在提取出待分析文本集合的主题之后,筛选模块20可根据待分析文本集合中各个文本与所述主题的匹配度筛选出用于描述主题文本。其中,匹配度越高, 越符合对主题的描述。因此,可将待分析文本集合中与主题匹配度最高的文本作为用于描述主题的信息。
在本发明的实施例中,如图6所示,筛选模块20可进一步包括:计算单元21和筛选单元22。其中:
计算单元21用于分别计算所述主题与所述待分析文本集合中每个文本的匹配度。
筛选单元22用于根据所述匹配度从所述待分析文本集合中筛选出用于描述所述主题的文本。
其中,主题与每个原始文本的匹配度可由原始文本中的词语与主题中的主题词的匹配情况确定。具体地,计算单元21可用于:对所述待分析文本集合中每个文本进行分词处理,以得到每个文本对应的多个分词;将各文本对应的多个分词与所述主题中的多个主题词分别进行比对,以确定每个文本中包含主题词的数量;根据每个文本中包含主题词的数量、每个文本中的分词总数以及所述主题中主题词的总数,计算所述主题与每个文本的匹配度。
也就是说,对于每个主题词,计算单元21可将其与待分析文本集合中每个文本中的每个分词一一进行比对,如果存在与该主题词一致的分词,则确定该文本中包括该主题词。进而,通过与每个主题词的分别比对,计算单元21可分别确定各个主题词是否包括在该文本中,进而得到该文本中包含的主题词的数量。以此类推,可确定每个文本中包含主题词的数量。
在本发明的实施例中,计算单元21可通过以下公式计算主题与每个文本的匹配度:
匹配度=(匹配词数/主题词数)×(匹配词数/文本总词数)×100%,
其中,匹配词数为文本中包含主题词的数量,主题词数为主题中所包括的主题词的数量,文本总词数为文本分词后得到词语数量。
在本发明的一个实施例中,为了提高主题信息获取的效率,可在将主题与待分析文本集合中各文本进行匹配之前,对待分析集合进行筛选,从而,只需将主题词与筛选出的部分文本进行匹配,减少了匹配过程所需的时间。因此,如图6所示,可选地,根据本发明的一个实施例的装置还可包括获取模块30。
具体地,获取模块30用于从所述待分析文本集合中分别获取所述多个主题词所属的文本。
其中,筛选模块20还用于将所述主题与所述多个主题词所属的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
在本发明的一个实施例中,获取模块30可根据传统的方法查找主题中的多个主题词所述的文本,得到该主题所属的文本。具体地,获取模块30可分别针对主题中的每个主题词,查询预先建立的文本数据库,并将查询到的包含该主题词的文本作为该主题词所属的文本。
其中,预先建立的文本数据库可以是根据主题提取软件包的提取结果建立的。具体地,可根据主题提取软件包的提取结果,确定提取出的主题所用到的所有文本,存入SQL数据库,该SQL数据库即为预先建立的文本数据库。
在本发明的一个实施例中,为了实现方便快速查找,可根据预先建立的分词与文本的索引关系分别查询所述主题词所属的文本。也就是说,可预先建立各词语与文本的索引关系,即对应关系,进而,可根据该索引关系直接查询到主题词所属的文本。
其中,分词与文本的索引关系为预先建立的。因此,本发明的实施例中,如图6所示,还可包括建立模块40,以建立分词与文本的索引关系的过程。也就是说,建立模块40可用于对所述待分析文本集合中的文本进行分词,并建立各分词与各自所属的文本的索引关系。具体地,建立模块40可导入用于提取主题的所有文本(即上述待分析文本集合),在导入过程中,可对每个文本进行分词,并为每个分词建立与其所属的文本的索引关系,由此,完成分词与文本的索引关系的建立。
其中,建立模块40是可选的。
在本发明的一个实施例中,可将分词与文本的索引关系导入Solr(一个独立的企业级搜索应用服务器),当需要查找主题中各主题词所属的文本时,可通过Solr直接从上述索引关系中查找到各主题词对应的文本,实现过程简单、方便,且查找速度快。
举例来说,通过主题提取软件包提取到的一个主题包括以下10个主题词:
衣服质量太差破地方A差撕坏地方B没面子,
这10个主题词所属的文本分别为以下文本1-10:
1、看完这一期我只能说XX品牌的衣服真的买不得质量太差一扯就坏了。
根据上述方式,计算得到文本1与主题的匹配度为:9.42%
2、地方A制造的衣服质量上要跟进!!!!!!!!!地方B的节目中拉扯来来去去也不见破掉!
根据上述方式,计算得到文本2与主题的匹配度为:30.63%
3、节目M的制作服装质量真差!节目N这么多年了也没有看见过几次衣服一拉就破的情况。
根据上述方式,计算得到文本3与主题的匹配度为:14.71%
4、就这一节目就透露了咱们地方A的衣服品质不咋地,地方B的节目N那衣服咋扯都没事地方A的撤了两下破了,哎!
根据上述方式,计算得到文本4与主题的匹配度为:12.5%
5、咳咳,地方A质量,衣服没扯几下就破了,看了这么久节目N没见过扯破衣服的?
根据上述方式,计算得到文本5与主题的匹配度为:13.16%
6、只想说一句,衣服质量太差咯。在地方B怎么没见衣服被扯坏。地方B的友人来的待遇----衣服被扯坏。唉
根据上述方式,计算得到文本6与主题的匹配度为:24.5%
7、真心吐槽团队的衣服居然那么差劲
根据上述方式,计算得到文本7与主题的匹配度为:5.71%
8、回复@那颗肉丸子:我是指衣服的质量
根据上述方式,计算得到文本8与主题的匹配度为:10%
9、本来没什么期待,但还是有惊喜吧,唯一想吐槽的是衣服质量能好点吗~哎。第一期就弄了指压板,飞椅,撕名牌啊~还有能力者~嘻嘻
根据上述方式,计算得到文本9与主题的匹配度为:3.91%
10、地方A版的节目N好凸显出一个事实!人家在地方B撕了四年的名牌,都没几件衣服坏过,来我们地方A一撕,就烂几件!但也有可能是节目组故意的,这样就显得这个节目太做作了!但能看见能力者肌肉还是很好的!
根据上述方式,计算得到文本10与主题的匹配度为:5.95%
根据以上匹配度分析,发现文本2的匹配度最高,因此,可将文本2作为该主题的描述信息。
由此,可将原有的由多个独立的词语表示的主题通过更符合自然语言习惯的文本句子2来描述,从而,主题通过自然语言描述,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
本发明实施例的主题信息获取装置,本发明实施例的主题信息获取装置,通过提取待分析文本集合的主题,并将主题与待分析文本集合中的文本分别进行匹配,以从待分析文本集合中筛选出用于描述主题的文本,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
进一步地,图7为根据本发明另一个实施例的主题信息获取装置的结构示意图。
如图7所示,在图5所示的基础上,还可包括存储模块50。
其中,存储模块50用于将所述主题以及用于描述所述主题的文本存储至主题数据库。
从而,可将获取到的主题以及用于描述该主题的文本存储至主题数据库,建立用于存储不同主题及用于描述各个主题的文本的数据库,以便后续在需要获取主题时,可从主题库中直接查询用于描述该主题的文本,提高查询效率。
本发明还提出一种电子设备。
根据本发明实施例的电子设备,包括本发明任一实施例的主题信息获取装置。
根据本发明实施例的电子设备,通过提取待分析文本集合的主题,并从待分析文本集合中分别获取主题中的多个主题词所属的原始文本,并将主题与多个主题词所属的原始文本进行匹配,以从多个主题词所属的原始文本中筛选出主题的描述信息,能够通过自然语言的文本来描述主题,能够使用户更直观、方便地知晓主题内容,且能够避免因独立词语片段带来的理解偏差,由此,能够提高主题信息的获取效率及准确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储 器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种主题信息获取方法,其特征在于,包括以下步骤:
提取待分析文本集合的主题,其中,所述主题包括多个主题词;以及
将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
2.如权利要求1所述的方法,其特征在于,所述将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本,包括:
分别计算所述主题与所述待分析文本集合中每个文本的匹配度;
根据所述匹配度从所述待分析文本集合中筛选出用于描述所述主题的文本。
3.如权利要求2所述的方法,其特征在于,所述分别计算所述主题与所述待分析文本集合中每个文本的匹配度,包括:
对所述待分析文本集合中每个文本进行分词处理,以得到每个文本对应的多个分词;
将各文本对应的多个分词与所述主题中的多个主题词分别进行比对,以确定每个文本中包含主题词的数量;
根据每个文本中包含主题词的数量、每个文本中的分词总数以及所述主题中主题词的总数,计算所述主题与每个文本的匹配度。
4.如权利要求1-3任一项所述的方法,其特征在于,还包括:
将所述主题以及用于描述所述主题的文本存储至主题数据库。
5.如权利要求1所述的方法,其特征在于,还包括:
从所述待分析文本集合中分别获取所述多个主题词所属的文本;
其中,所述将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本,包括:
将所述主题与所述多个主题词所属的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
6.如权利要求5所述的方法,其特征在于,所述从所述待分析文本集合中分别获取所述多个主题词所属的文本,包括:
根据预先建立的分词与文本的索引关系分别查询所述主题词所属的文本。
7.如权利要求6所述的方法,其特征在于,还包括:
对所述待分析文本集合中的文本进行分词,并建立各分词与各自所属的文本的索引关系。
8.一种主题信息获取装置,其特征在于,包括:
提取模块,用于提取待分析文本集合的主题,其中,所述主题包括多个主题词;以及
筛选模块,用于将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
9.如权利要求8所述的装置,其特征在于,所述筛选模块包括:
计算单元,用于分别计算所述主题与所述待分析文本集合中每个文本的匹配度;
筛选单元,用于根据所述匹配度从所述待分析文本集合中筛选出用于描述所述主题的文本。
10.如权利要求9所述的装置,其特征在于,所述计算单元用于:
对所述待分析文本集合中每个文本进行分词处理,以得到每个文本对应的多个分词;
将各文本对应的多个分词与所述主题中的多个主题词分别进行比对,以确定每个文本中包含主题词的数量;
根据每个文本中包含主题词的数量、每个文本中的分词总数以及所述主题中主题词的总数,计算所述主题与每个文本的匹配度。
11.如权利要求8-10任一项所述的装置,其特征在于,还包括:
存储模块,用于将所述主题以及用于描述所述主题的文本存储至主题数据库。
12.如权利要求8所述的装置,其特征在于,还包括:
获取模块,用于从所述待分析文本集合中分别获取所述多个主题词所属的文本;
其中,所述筛选模块还用于将所述主题与所述多个主题词所属的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。
13.如权利要求12所述的装置,其特征在于,所述获取模块用于:
根据预先建立的分词与文本的索引关系分别查询所述主题词所属的文本。
14.如权利要求13所述的装置,其特征在于,还包括:
建立模块,用于对所述待分析文本集合中的文本进行分词,并建立各分词与各自所属的文本的索引关系。
15.一种电子设备,其特征在于,包括如权利要求8-14任一项所述的主题信息获取装置。
CN201610565513.6A 2016-07-18 2016-07-18 主题信息获取方法、装置和电子设备 Active CN106202050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610565513.6A CN106202050B (zh) 2016-07-18 2016-07-18 主题信息获取方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610565513.6A CN106202050B (zh) 2016-07-18 2016-07-18 主题信息获取方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN106202050A true CN106202050A (zh) 2016-12-07
CN106202050B CN106202050B (zh) 2020-02-07

Family

ID=57494108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610565513.6A Active CN106202050B (zh) 2016-07-18 2016-07-18 主题信息获取方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN106202050B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287843A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 一种兴趣点信息检索的方法和装置、及导航设备
CN110728135A (zh) * 2019-10-12 2020-01-24 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN111046169A (zh) * 2019-12-24 2020-04-21 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111062213A (zh) * 2019-11-19 2020-04-24 竹间智能科技(上海)有限公司 命名实体识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN102254011A (zh) * 2011-07-18 2011-11-23 哈尔滨工业大学 一种动态多文档文摘建模方法
US20130054553A1 (en) * 2011-08-24 2013-02-28 Electronics And Telecommunications Research Institute Method and apparatus for automatically extracting information of products
CN104361081A (zh) * 2014-11-13 2015-02-18 河海大学 一种基于web文档的自动摘要方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN102254011A (zh) * 2011-07-18 2011-11-23 哈尔滨工业大学 一种动态多文档文摘建模方法
US20130054553A1 (en) * 2011-08-24 2013-02-28 Electronics And Telecommunications Research Institute Method and apparatus for automatically extracting information of products
CN104361081A (zh) * 2014-11-13 2015-02-18 河海大学 一种基于web文档的自动摘要方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287843A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 一种兴趣点信息检索的方法和装置、及导航设备
CN110728135A (zh) * 2019-10-12 2020-01-24 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110728135B (zh) * 2019-10-12 2023-06-09 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN111062213A (zh) * 2019-11-19 2020-04-24 竹间智能科技(上海)有限公司 命名实体识别方法、装置、设备及介质
CN111062213B (zh) * 2019-11-19 2024-01-12 竹间智能科技(上海)有限公司 命名实体识别方法、装置、设备及介质
CN111046169A (zh) * 2019-12-24 2020-04-21 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111046169B (zh) * 2019-12-24 2024-03-26 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106202050B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
Cao et al. Introduction to text visualization
JP5530425B2 (ja) ユーザ駆動によるセマンティックネットワークの動的生成およびメディア統合のための方法、システム、ならびにコンピュータプログラム
CN106202050A (zh) 主题信息获取方法、装置和电子设备
Hornbæk et al. What do we mean by “interaction”? An analysis of 35 years of CHI
CN105183850A (zh) 基于人工智能的信息查询方法及装置
CN104391871A (zh) 多媒体内容的提供方法和装置
CN101359285B (zh) 一种将控件插入到文档里的装置和方法
CN104123351A (zh) 交互式搜索方法和装置
CN106202057A (zh) 相似新闻信息的识别方法和装置
CN103927299A (zh) 输入法中候选语句的提供方法、输入内容推荐方法和装置
CN109033074A (zh) 新闻摘要生成方法、装置、设备及计算机可读介质
CN107357830A (zh) 基于人工智能的检索语句语义片段获取方法、装置及终端
Rematas et al. Dataset fingerprints: Exploring image collections through data mining
Lee et al. Fashion and Beauty in the Time of Asia
CN105488206A (zh) 一种基于众包的安卓应用演化推荐方法
CN113516491A (zh) 推广信息展示方法、装置、电子设备及存储介质
CN108305306A (zh) 一种基于草图交互的动画数据组织方法
Zhang et al. Research on emotion analysis of Chinese literati painting images based on deep learning
CN103646096A (zh) 一种通过用户配置生成子查询的方法与装置
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法
CN102982029B (zh) 一种搜索需求识别方法及装置
CN106327341A (zh) 基于联合主题的微博用户性别推断方法及系统
CN106503064A (zh) 一种自适应微博话题摘要的生成方法
CN109145098B (zh) 基于知识图谱的中华文化元素信息搜索方法
Palekar et al. Deep web data extraction using web-programming-language-independent approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant