CN107977379A - 用于挖掘信息的方法和装置 - Google Patents

用于挖掘信息的方法和装置 Download PDF

Info

Publication number
CN107977379A
CN107977379A CN201610937725.2A CN201610937725A CN107977379A CN 107977379 A CN107977379 A CN 107977379A CN 201610937725 A CN201610937725 A CN 201610937725A CN 107977379 A CN107977379 A CN 107977379A
Authority
CN
China
Prior art keywords
word
entity
question
text message
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610937725.2A
Other languages
English (en)
Other versions
CN107977379B (zh
Inventor
屈冰欣
曾刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co Ltd
Original Assignee
Baidu International Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co Ltd filed Critical Baidu International Technology Shenzhen Co Ltd
Priority to CN201610937725.2A priority Critical patent/CN107977379B/zh
Publication of CN107977379A publication Critical patent/CN107977379A/zh
Application granted granted Critical
Publication of CN107977379B publication Critical patent/CN107977379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了用于挖掘信息的方法和装置。所述方法的一具体实施方式包括:确定待挖掘文本信息集合中的问答文本信息,待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词;对待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。该实施方式实现了实体关系信息的准确挖掘。

Description

用于挖掘信息的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及信息挖掘,尤其涉及用于挖掘信息的方法和装置。
背景技术
随着计算机的普及以及互联网技术的迅猛发展,大量的信息得到了共享,面对海量的信息,迫切需要一些方法能帮助人们在海量信息源中迅速获取真正需要的信息,在获取信息的过程中,往往需要对文本进行命名实体的识别,并挖掘实体之间的关系。
由于受上下文之间的连续性、文本中词语的灵活多变性等因素的影响,使实体关系的挖掘显得更加困难。例如,现有的实体关系挖掘方法往往不能很好的处理包含封闭式问答信息的文本信息,比如,患者提问“糖尿病人可不可以多吃燕麦?”,医生回答“可以多吃”;若将患者提问和医生回答连接起来处理,则只会挖掘出糖尿病人不可以多吃燕麦的关系,而这个关系是与该文本信息表达的真实意思不相符的。因此,现在亟需一种能够准确挖掘实体之间关系的方法。
发明内容
本申请的目的在于提出一种改进的用于挖掘信息的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用于挖掘信息的方法,包括:确定待挖掘文本信息集合中的问答文本信息,其中,所述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,所述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
在一些实施例中,所述方法还包括:根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。
在一些实施例中,所述对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息,包括:将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;从问答文本信息的回答部分中搜索距离提问部分最近的关系词;判断搜索得到的关系词的前后是否存在否定词;如果存在,则对第一实体词和第二实体词的关系进行反转;基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。
在一些实施例中,所述对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息,包括:对分析处理后的问答文本信息和非问答文本信息进行切词处理,获得分析处理后的问答文本信息和非问答文本信息的实体信息集合,其中,各个实体信息集合中的实体信息是按在文本中的位置进行排序的;对获取的各个实体信息集合中的实体信息进行过滤处理,并将过滤后的各个实体信息集合进行切分处理,得到各个实体信息集合的至少一个实体信息子集合,其中,第一实体词位于各个实体信息子集合的首位;对至少一个实体信息子集合进行过滤处理;搜索距离过滤后得到的各实体信息子集合中的第二实体词最近的关系词,并确定各实体信息子集合中的第一实体词与第二实体词的最终关系词;判断各实体信息子集合中第一实体词与第二实体词的最终关系词前或后是否存在否定词;如果有,则对该实体信息子集合中第一实体词和第二实体词的关系进行反转;基于最终关系词的映射关系词或反转结果获得各个实体信息子集合中的第一实体词和第二实体词的待确认实体关系信息。
在一些实施例中,所述对至少一个实体信息子集合进行过滤处理,包括:判断相邻的两个实体信息子集合中包括的第一实体词之间是否有第二实体词,如果没有,则将两个实体信息子集合进行删除。
在一些实施例中,所述对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息,包括:对得到的待确定实体关系信息进行统计;如果待确定实体关系信息出现的次数超过预先设定的次数阈值,且该待确定实体关系信息所占的比例超过预先设定的比例阈值,则确定该待确定实体关系信息为第一实体词和第二实体词之间的实体关系信息。
第二方面,本申请提供了一种用于挖掘信息的装置,包括:确定单元,用于确定待挖掘文本信息集合中的问答文本信息,其中,所述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,所述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;第一分析单元,用于对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;第二分析单元,用于对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;统计单元,用于对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
在一些实施例中,所述装置还包括:映射单元,用于根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。
在一些实施例中,所述第一分析单元进一步用于:将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;从问答文本信息的回答部分中搜索距离提问部分最近的关系词;判断搜索得到的关系词的前后是否存在否定词;如果存在,则对第一实体词和第二实体词的关系进行反转;基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。
在一些实施例中,所述第二分析单元包括:切词单元,用于对分析处理后的问答文本信息和非问答文本信息进行切词处理,获得分析处理后的问答文本信息和非问答文本信息的实体信息集合,其中,各个实体信息集合中的实体信息是按在文本中的位置进行排序的;第一过滤单元,用于对获取的各个实体信息集合中的实体信息进行过滤处理,并将过滤后的各个实体信息集合进行切分处理,得到各个实体信息集合的至少一个实体信息子集合,其中,第一实体词位于各个实体信息子集合的首位;第二过滤单元,用于对至少一个实体信息子集合进行过滤处理;搜索单元,用于搜索距离过滤后得到的各实体信息子集合中的第二实体词最近的关系词,并确定各实体信息子集合中的第一实体词与第二实体词的最终关系词;判断单元,用于判断各实体信息子集合中第一实体词与第二实体词的最终关系词前或后是否存在否定词;反转单元,用于如果有,则对该实体信息子集合中第一实体词和第二实体词的关系进行反转;获取单元,用于基于最终关系词的映射关系词或反转结果获得各个实体信息子集合中的第一实体词和第二实体词的待确认实体关系信息。
在一些实施例中,所述第二过滤单元进一步用于:判断相邻的两个实体信息子集合中包括的第一实体词之间是否有第二实体词,如果没有,则将两个实体信息子集合进行删除。
在一些实施例中,所述统计单元进一步用于:对得到的待确定实体关系信息进行统计;如果待确定实体关系信息出现的次数超过预先设定的次数阈值,且该待确定实体关系信息所占的比例超过预先设定的比例阈值,则确定该待确定实体关系信息为第一实体词和第二实体词之间的实体关系信息。
本申请提供的用于挖掘信息的方法和装置,通过对待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息,而后对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息,最后对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息,从而对待挖掘文本信息集合中的问答文本信息和非问答文本信息进行了充分的分析,实现了实体关系信息的准确挖掘。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于挖掘信息的方法的一个实施例的流程图;
图3是对问答文本信息进行分析处理的流程图;
图4是根据本申请的用于挖掘信息的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于挖掘信息的方法或用于挖掘信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、邮箱客户端、文本处理类应用等。
终端设备101、102、103可以是具有显示屏并且支持文本信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的信息提供支持的后台服务器,后台服务器可以对文本信息进行信息挖掘,并将挖掘结果反馈给终端设备。又例如对终端设备101、102、103上安装的各类应用提供数据支持的数据库服务器,数据库服务器可以将存储的数据发送给终端设备101、102、103,由终端设备101、102、103进行信息处理。
需要说明的是,本申请实施例所提供的用于挖掘信息的方法可以由终端设备101、102、103单独执行,或者也可以由服务器105单独执行。相应地,用于挖掘信息的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于挖掘信息的方法的一个实施例的流程200。所述的用于挖掘信息的方法,包括以下步骤:
步骤201,确定待挖掘文本信息集合中的问答文本信息。
在本实施例中,用于挖掘信息的方法运行于其上的电子设备(例如图1所示的终端设备101、102、103或者服务器105)上可以预先存储或者从远程设备获取待挖掘文本信息集合,上述待挖掘文本信息集合中可以包括问答文本信息和非问答文本信息。上述待挖掘文本信息集合中的文本信息可以是从网页抓取的,并在存储的时候按预先设定的格式进行存储。例如,将从网页抓取的、包含提问部分和回答部分的问答文本信息按“提问部分\t回答部分”的格式进行存储,将从网页抓取的、不包含提问部分和回答部分的非问答文本信息按纯文本格式进行存储。上述电子设备可以根据待挖掘文本信息集合中的各条待挖掘文本信息的格式确定出待挖掘文本信息集合中的问答文本信息。在这里,上述待挖掘文本信息集合中的各条待挖掘文本信息中可以包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,其中,第一实体词和第二实体词是根据所表示实体所属类别划分的。以挖掘疾病与饮食之间的关系为例,实体类别可以包括疾病实体和饮食实体,根据所表示实体所属类别可以将实体词划分为疾病实体词和饮食实体词,并将表示疾病实体的实体词定义为第一实体词(例如糖尿病、感冒、发烧等实体词为第一实体词),将表示饮食实体的实体词定义为第二实体词(例如燕麦、生姜、苹果等实体词为第二实体词),而表征疾病实体词和饮食实体词之间关系的词为关系词,例如,文本信息“糖尿病宜吃燕麦”中的糖尿病为第一实体词,燕麦为第二实体词,而表征糖尿病与燕麦之间关系的“宜吃”为关系词。
步骤202,对待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息。
在本实施例中,上述电子设备可以对步骤201中确定的问答文本信息进行各种分析处理(例如切词、命名实体识别等等),从而得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息。例如,上述电子设备对问答文本信息“糖尿病人可不可以多吃燕麦?\t可以多吃”进行分析处理,可以得到“糖尿病多吃燕麦”的关系,则该关系为待确定实体关系信息。
在本实施例的一些可选的实现方式中,上述电子设备还可以根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。在这里,映射规则可以是根据关系词所描述的关系设定的,例如,“能吃”、“多吃”、“适宜吃”、“应吃”等关系词所描述的关系都是宜食,则可以设定映射规则将“能吃”、“多吃”、“适宜吃”、“应吃”等关系词映射为映射关系词“宜食”。
在一些可选的实现方式中,上述步骤202还可以具体包括(如图3所示):
步骤2021,将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;
步骤2022,确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;
步骤2023,从问答文本信息的回答部分中搜索距离提问部分最近的关系词,在这里,距离可以是指文本中所间隔的汉字、单词等的个数;
步骤2024,判断搜索得到的关系词的前后是否存在否定词;
步骤2025,如果存在,则对第一实体词和第二实体词的关系进行反转,例如,关系词“多吃”前面搜索到了否定词“不”,则将关系词“多吃”反转为与其映射关系词“宜食”意思相反的、预设的词(例如“不宜食”、“禁食”等等);
步骤2026,基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,例如,当不存在否定词时,可以将“第一实体词+关系词的映射关系词+第二实体词”形式的关系信息作为待确定实体关系信息,当存在否定词时,可以将“第一实体词+关系词的反转结果+第二实体词”形式的关系信息作为待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。
步骤203,对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息。
在本实施例中,上述电子设备可以对步骤202得到分析处理后的问答文本信息以及待挖掘文本信息集合中的非问答文本信息进行各种分析处理(例如切词、命名实体识别等等),从而得到分析处理后的问答文本信息和非问答文本信息中包含的实体关系,则该关系为待确定实体关系信息。
在一些可选的实现方式中,步骤203还可以具体包括:
首先,可以对分析处理后的问答文本信息和非问答文本信息进行切词处理,获得分析处理后的问答文本信息和非问答文本信息的实体信息集合,其中,各个实体信息集合中的实体信息是按在文本中的位置进行排序的,在这里,实体信息可以包括第一实体词和第二实体词;
其次,可以对获取的各个实体信息集合中的实体信息进行过滤处理,并将过滤后的各个实体信息集合进行切分处理(例如,按实体信息出现在文本中的位置等方式进行切分),得到各个实体信息集合的至少一个实体信息子集合,其中,第一实体词位于各个实体信息子集合的首位,在这里,可以根据实体信息后面出现的后缀对实体信息进行过滤处理,例如,当实体信息“苹果”后面出现“味”、“大小”等后缀时表明实体信息“苹果”不是需要进行关系挖掘的实体词,此时删除该实体信息;
之后,对至少一个实体信息子集合进行过滤处理,去除不满足预设条件的实体信息子集合;
再次,可以搜索距离过滤后得到的各实体信息子集合中的第二实体词最近的关系词,并确定各实体信息子集合中的第一实体词与第二实体词的最终关系词,例如,针对每个第二实体词可以向前或向后搜索距离最近的关系词,在搜索过程中如果遇到句号、问号、感叹号等明显断句的符号则停止该方向的搜索,如果第二实体词仅前面(或后面)有关系词,则该第二实体词的最终关系词为前面(或后面)的关系词,如果第二实体词前后均有关系词且该第二实体词与前面的关系词之间有标点符号相隔,与后面的关系词之间无标点符号,则该第二实体词的最终关系词为前面的关系词,反之亦然,如果第二实体词前面和后面均有关系词且无标点符号相隔,或者均无关系词,则删除该第二实体词;
然后,可以判断各实体信息子集合中第一实体词与第二实体词的最终关系词前或后是否存在否定词;
再然后,如果有,则对该实体信息子集合中第一实体词和第二实体词的关系进行反转,具体的反转过程可以参考步骤2025,此处不再赘述;
最后,基于最终关系词的映射关系词或反转结果获得各个实体信息子集合中的第一实体词和第二实体词的待确认实体关系信息,具体过程可以参考步骤2026,此处不再赘述。
可选的,上述对至少一个实体信息子集合进行过滤处理,可以如下进行:判断相邻的两个实体信息子集合中包括的第一实体词之间是否有第二实体词,如果没有,则将两个实体信息子集合进行删除。例如,如果相邻的两个实体信息子集合中包括的第一实体词(如疾病实体词)之间没有出现第二实体词(如食物实体词),则无法确定第二实体词对应哪个第一实体词,为了防止引入噪声,则删除上述的两个实体信息子集合。
步骤204,对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
在本实施例中,上述电子设备可以对步骤202和步骤203中得到待确定实体关系信息进行统计分析,并根据统计分析结果得到第一实体词和第二实体词之间的实体关系信息。例如,可以将出现次数超过预先设定的次数阈值的待确定实体关系信息作为第一实体词和第二实体词之间的实体关系信息的实体关系信息。
在本实施例的一些可选的实现方式中,上述步骤204可以如下进行:对得到的待确定实体关系信息进行统计;如果待确定实体关系信息出现的次数超过预先设定的次数阈值,且该待确定实体关系信息所占的比例超过预先设定的比例阈值,则确定该待确定实体关系信息为第一实体词和第二实体词之间的实体关系信息。以挖掘糖尿病与燕麦之间的关系为例,首先,统计待确定实体关系信息“糖尿病宜食燕麦”总共出现的次数是否超过预先设定的次数阈值,如果超过,则进一步统计待确定实体关系信息“糖尿病宜食燕麦”与待确定实体关系信息“糖尿病不宜食燕麦”分别与两者出现次数总和之间的比例,如果待确定实体关系信息“糖尿病宜食燕麦”所占的比例超过预先设定的比例阈值,则待确定实体关系信息“糖尿病宜食燕麦”为最终得到的实体关系信息,反之亦然。
本申请的上述实施例提供的方法通过对待挖掘文本信息集合中的问答文本信息和非问答文本信息进行充分的分析,实现了实体关系信息的准确挖掘。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于挖掘信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的用于挖掘信息的装置400包括:确定单元401、第一分析单元402、第二分析单元403和统计单元404。其中,确定单元401用于确定待挖掘文本信息集合中的问答文本信息,其中,上述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,上述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;第一分析单元402用于对上述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;第二分析单元403用于对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;统计单元404用于对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。在本实施例中,确定单元401、第一分析单元402、第二分析单元403和统计单元404的具体处理可以参考图2对应实施例步骤201、步骤202、步骤203和步骤204的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述装置400还可以包括:映射单元(未示出),用于根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第一分析单元402可以进一步用于:将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;从问答文本信息的回答部分中搜索距离提问部分最近的关系词;判断搜索得到的关系词的前后是否存在否定词;如果存在,则对第一实体词和第二实体词的关系进行反转;基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第二分析单元403可以包括:切词单元(未示出),用于对分析处理后的问答文本信息和非问答文本信息进行切词处理,获得分析处理后的问答文本信息和非问答文本信息的实体信息集合,其中,各个实体信息集合中的实体信息是按在文本中的位置进行排序的;第一过滤单元(未示出),用于对获取的各个实体信息集合中的实体信息进行过滤处理,并将过滤后的各个实体信息集合进行切分处理,得到各个实体信息集合的至少一个实体信息子集合,其中,第一实体词位于各个实体信息子集合的首位;第二过滤单元(未示出),用于对上述至少一个实体信息子集合进行过滤处理;搜索单元(未示出),用于搜索距离过滤后得到的各实体信息子集合中的第二实体词最近的关系词,并确定各实体信息子集合中的第一实体词与第二实体词的最终关系词;判断单元(未示出),用于判断各实体信息子集合中第一实体词与第二实体词的最终关系词前或后是否存在否定词;反转单元(未示出),用于如果有,则对该实体信息子集合中第一实体词和第二实体词的关系进行反转;获取单元(未示出),用于基于最终关系词的映射关系词或反转结果获得各个实体信息子集合中的第一实体词和第二实体词的待确认实体关系信息。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第二过滤单元进一步用于:判断相邻的两个实体信息子集合中包括的第一实体词之间是否有第二实体词,如果没有,则将两个实体信息子集合进行删除。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
在本实施例的一些可选的实现方式中,上述统计单元404可以进一步用于:对得到的待确定实体关系信息进行统计;如果待确定实体关系信息出现的次数超过预先设定的次数阈值,且该待确定实体关系信息所占的比例超过预先设定的比例阈值,则确定该待确定实体关系信息为第一实体词和第二实体词之间的实体关系信息。该实现方式可参考上述图2对应实施例中相应实现方式的详细描述,在此不再赘述。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括确定单元、第一分析单元、第二分析单元和统计单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,确定单元还可以被描述为“确定待挖掘文本信息集合中的问答文本信息的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:确定待挖掘文本信息集合中的问答文本信息,其中,所述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,所述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种用于挖掘信息的方法,其特征在于,所述方法包括:
确定待挖掘文本信息集合中的问答文本信息,其中,所述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,所述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;
对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;
对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;
对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。
3.根据权利要求2所述的方法,其特征在于,所述对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息,包括:
将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;
确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;
从问答文本信息的回答部分中搜索距离提问部分最近的关系词;
判断搜索得到的关系词的前后是否存在否定词;
如果存在,则对第一实体词和第二实体词的关系进行反转;
基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。
4.根据权利要求2所述的方法,其特征在于,所述对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息,包括:
对分析处理后的问答文本信息和非问答文本信息进行切词处理,获得分析处理后的问答文本信息和非问答文本信息的实体信息集合,其中,各个实体信息集合中的实体信息是按在文本中的位置进行排序的;
对获取的各个实体信息集合中的实体信息进行过滤处理,并将过滤后的各个实体信息集合进行切分处理,得到各个实体信息集合的至少一个实体信息子集合,其中,第一实体词位于各个实体信息子集合的首位;
对至少一个实体信息子集合进行过滤处理;
搜索距离过滤后得到的各实体信息子集合中的第二实体词最近的关系词,并确定各实体信息子集合中的第一实体词与第二实体词的最终关系词;
判断各实体信息子集合中第一实体词与第二实体词的最终关系词前或后是否存在否定词;
如果有,则对该实体信息子集合中第一实体词和第二实体词的关系进行反转;
基于最终关系词的映射关系词或反转结果获得各个实体信息子集合中的第一实体词和第二实体词的待确认实体关系信息。
5.根据权利要求4所述的方法,其特征在于,所述对至少一个实体信息子集合进行过滤处理,包括:
判断相邻的两个实体信息子集合中包括的第一实体词之间是否有第二实体词,如果没有,则将两个实体信息子集合进行删除。
6.根据权利要求1所述的方法,其特征在于,所述对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息,包括:
对得到的待确定实体关系信息进行统计;
如果待确定实体关系信息出现的次数超过预先设定的次数阈值,且该待确定实体关系信息所占的比例超过预先设定的比例阈值,则确定该待确定实体关系信息为第一实体词和第二实体词之间的实体关系信息。
7.一种用于挖掘信息的装置,其特征在于,所述装置包括:
确定单元,用于确定待挖掘文本信息集合中的问答文本信息,其中,所述待挖掘文本信息集合中包括问答文本信息和非问答文本信息,所述待挖掘文本信息集合中的各条待挖掘文本信息中包括用于表示实体的第一实体词和第二实体词、以及用于表征第一实体词和第二实体词之间关系的关系词,第一实体词和第二实体词是根据所表示实体所属类别划分的;
第一分析单元,用于对所述待挖掘文本信息集合中的问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息以及分析处理后的问答文本信息;
第二分析单元,用于对分析处理后的问答文本信息和非问答文本信息进行分析处理,得到第一实体词和第二实体词的待确定实体关系信息;
统计单元,用于对得到的待确定实体关系信息进行统计分析,得到第一实体词和第二实体词之间的实体关系信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
映射单元,用于根据预先设定的映射规则将各关系词进行映射,得到各关系词的映射关系词。
9.根据权利要求8所述的装置,其特征在于,所述第一分析单元进一步用于:
将问答文本信息的提问部分进行切词处理,获得提问部分的实体词集合,其中,问答文本信息包括提问部分和回答部分;
确定提问部分的实体词集合中包括第一实体词、第二实体词、以及关系词;
从问答文本信息的回答部分中搜索距离提问部分最近的关系词;
判断搜索得到的关系词的前后是否存在否定词;
如果存在,则对第一实体词和第二实体词的关系进行反转;
基于搜索得到的关系词的映射关系词或反转结果得到问答文本信息中第一实体词和第二实体词的待确定实体关系信息,并删除提问部分中的关系词和第二实体,得到分析处理后的问答文本信息。
10.根据权利要求8所述的装置,其特征在于,所述第二分析单元包括:
切词单元,用于对分析处理后的问答文本信息和非问答文本信息进行切词处理,获得分析处理后的问答文本信息和非问答文本信息的实体信息集合,其中,各个实体信息集合中的实体信息是按在文本中的位置进行排序的;
第一过滤单元,用于对获取的各个实体信息集合中的实体信息进行过滤处理,并将过滤后的各个实体信息集合进行切分处理,得到各个实体信息集合的至少一个实体信息子集合,其中,第一实体词位于各个实体信息子集合的首位;
第二过滤单元,用于对至少一个实体信息子集合进行过滤处理;
搜索单元,用于搜索距离过滤后得到的各实体信息子集合中的第二实体词最近的关系词,并确定各实体信息子集合中的第一实体词与第二实体词的最终关系词;
判断单元,用于判断各实体信息子集合中第一实体词与第二实体词的最终关系词前或后是否存在否定词;
反转单元,用于如果有,则对该实体信息子集合中第一实体词和第二实体词的关系进行反转;
获取单元,用于基于最终关系词的映射关系词或反转结果获得各个实体信息子集合中的第一实体词和第二实体词的待确认实体关系信息。
11.根据权利要求10所述的装置,其特征在于,所述第二过滤单元进一步用于:
判断相邻的两个实体信息子集合中包括的第一实体词之间是否有第二实体词,如果没有,则将两个实体信息子集合进行删除。
12.根据权利要求7所述的装置,其特征在于,所述统计单元进一步用于:
对得到的待确定实体关系信息进行统计;
如果待确定实体关系信息出现的次数超过预先设定的次数阈值,且该待确定实体关系信息所占的比例超过预先设定的比例阈值,则确定该待确定实体关系信息为第一实体词和第二实体词之间的实体关系信息。
CN201610937725.2A 2016-10-25 2016-10-25 用于挖掘信息的方法和装置 Active CN107977379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610937725.2A CN107977379B (zh) 2016-10-25 2016-10-25 用于挖掘信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610937725.2A CN107977379B (zh) 2016-10-25 2016-10-25 用于挖掘信息的方法和装置

Publications (2)

Publication Number Publication Date
CN107977379A true CN107977379A (zh) 2018-05-01
CN107977379B CN107977379B (zh) 2022-06-28

Family

ID=62005002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610937725.2A Active CN107977379B (zh) 2016-10-25 2016-10-25 用于挖掘信息的方法和装置

Country Status (1)

Country Link
CN (1) CN107977379B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036554A (zh) * 2018-08-07 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110263342A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 实体的上下位关系的挖掘方法和装置、电子设备
CN110569494A (zh) * 2018-06-05 2019-12-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111190997A (zh) * 2018-10-26 2020-05-22 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111209348A (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN116521761A (zh) * 2023-06-16 2023-08-01 创域智能(常熟)网联科技有限公司 基于人工智能的传感器运行行为挖掘方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882259A (zh) * 2009-05-06 2010-11-10 日电(中国)有限公司 用于对实体关系实例进行过滤的方法和设备
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN104965992A (zh) * 2015-07-13 2015-10-07 南开大学 一种基于在线医疗问答信息的文本挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882259A (zh) * 2009-05-06 2010-11-10 日电(中国)有限公司 用于对实体关系实例进行过滤的方法和设备
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN104965992A (zh) * 2015-07-13 2015-10-07 南开大学 一种基于在线医疗问答信息的文本挖掘方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569494A (zh) * 2018-06-05 2019-12-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109036554A (zh) * 2018-08-07 2018-12-18 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109036554B (zh) * 2018-08-07 2020-02-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111190997A (zh) * 2018-10-26 2020-05-22 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111190997B (zh) * 2018-10-26 2024-01-05 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111209348A (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111209348B (zh) * 2018-11-21 2023-09-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110263342A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 实体的上下位关系的挖掘方法和装置、电子设备
CN116521761A (zh) * 2023-06-16 2023-08-01 创域智能(常熟)网联科技有限公司 基于人工智能的传感器运行行为挖掘方法及系统
CN116521761B (zh) * 2023-06-16 2023-09-29 创域智能(常熟)网联科技有限公司 基于人工智能的传感器运行行为挖掘方法及系统

Also Published As

Publication number Publication date
CN107977379B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN107977379A (zh) 用于挖掘信息的方法和装置
CN111190939B (zh) 一种用户画像构建方法及装置
US11816120B2 (en) Extracting seasonal, level, and spike components from a time series of metrics data
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN107729319B (zh) 用于输出信息的方法和装置
US7930226B1 (en) User-driven document-based data collection
US20190096060A1 (en) Method and apparatus for annotating medical image
US20020124025A1 (en) Scanning and outputting textual information in web page images
CN105488205B (zh) 页面生成方法和装置
CN107733967A (zh) 推送信息的处理方法、装置、计算机设备和存储介质
CN107818118A (zh) 数据存储方法和装置
CN107153716B (zh) 网页内容提取方法和装置
CN109299477A (zh) 用于生成文本标题的方法和装置
CN107436843A (zh) 网页性能测试方法和装置
CN108924381B (zh) 图像处理方法、图像处理装置及计算机可读介质
US20230106202A1 (en) Method and apparatus for generating prediction information, and electronic device and medium
US20020124020A1 (en) Extracting textual equivalents of multimedia content stored in multimedia files
CN107656910A (zh) 用于生成表单的方法和装置
CN114282524A (zh) 问卷信息结构化数据处理方法、系统和装置
CN107885872B (zh) 用于生成信息的方法和装置
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN107657672A (zh) 用户签到方法、装置、系统及存储介质
CN106959945A (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN111310465B (zh) 平行语料获取方法、装置、电子设备、及存储介质
CN107798556A (zh) 用于更新状况记录的方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant