CN105787101A - 一种信息处理方法和电子设备 - Google Patents

一种信息处理方法和电子设备 Download PDF

Info

Publication number
CN105787101A
CN105787101A CN201610158021.5A CN201610158021A CN105787101A CN 105787101 A CN105787101 A CN 105787101A CN 201610158021 A CN201610158021 A CN 201610158021A CN 105787101 A CN105787101 A CN 105787101A
Authority
CN
China
Prior art keywords
information
suspicion
judged result
belongs
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610158021.5A
Other languages
English (en)
Other versions
CN105787101B (zh
Inventor
杨大业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201610158021.5A priority Critical patent/CN105787101B/zh
Publication of CN105787101A publication Critical patent/CN105787101A/zh
Application granted granted Critical
Publication of CN105787101B publication Critical patent/CN105787101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息处理方法,包括:获取网络中至少两个待处理信息;依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。采用该方法,预设有筛选规则,该筛选规则能够对网络中的多个待处理信息进行筛选,确定其中的嫌疑信息,以实现从网络中的海量信息中确定出具有嫌疑的信息,无需人工对网络中的海量信息进行一一查看,减少了确定信息内容真伪的时间长度,实时性较好。并且,采用该方法,少了人力物力的消耗。

Description

一种信息处理方法和电子设备
技术领域
本发明涉及电子设备领域,更具体的说,是涉及一种信息处理方法和电子设备。
背景技术
随着社交媒体的发展,用户产生的信息已经在广度和实时性上达到或超过传统媒体.由于社交媒体本身的性质,用户数量基数巨大,对于用户产生的信息如何进行证伪并限制其传播成为一个现实的问题。
现有技术中,一般采用人工验证。以微博为例,人工通过对网络上的微博一条一条的查看,并验证其是否为谣言微博。但是,采用该方法需要耗费大量的人力物力,且实时性较差,这使得验证信息得到其内容真伪的结果不够及时。
发明内容
有鉴于此,本发明提供了一种信息处理方法,解决了现有技术中由于人工对海量的用户产生的信息进行验证真伪,导致得到真伪结果的实时性较差的问题。
为实现上述目的,本发明提供如下技术方案:
一种信息处理方法,包括:
获取网络中至少两个待处理信息;
依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。
上述的方法,优选的,所述依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息之后,还包括:
展示所述嫌疑信息。
上述的方法,优选的,所述依据预设筛选规则,筛选得到所述待处理的信息中的嫌疑信息,包括:
依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;
依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;
基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;
从每一分层类别中的第一信息获取一个作为代表信息;
依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;
基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
上述的方法,优选的,所述依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息,包括:
基于输入信息获取查询关键字;
依据所述查询关键字在所述至少两个待处理信息中筛选包含所述查询关键字的第一信息。
上述的方法,优选的,所述基于输入信息获取查询关键字,包括:
基于输入信息,在关键字词库中获取预设的查询关键字,所述输入信息基于用户的查询操作生成;
或者
基于用户输入的字符信息,生成查询关键字。
上述的方法,优选的,所述依据预设的分析规则,分析判断所述第一信息是否属于论断信息,包括:
依据预设的分类规则,分析得到所述第一信息的内容类别;
判断所述第一信息的内容类别是否属于主体事件类别,得到第三判断结果;
基于第三判断结果表征所述第一信息的内容类别属于主体事件类别,依据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息。
上述的方法,优选的,所述据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息,包括:
依据预设的句法划分规则,分析得到第二信息中包含的至少两个字在所述第二信息中表示的句子元素;
分析预设的标准论断信息句子元素排列规则与所述第二信息中的句子元素,得到所述第二信息与所述标准论断信息的匹配值;
判断所述匹配值是否大于第一阈值,得到第四判断结果;
基于第四判断结果表征所述匹配值大于第一阈值,判定所述第二信息属于论断信息。
上述的方法,优选的,所述依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别,包括:
依据预设的相似性分析规则,计算各个属于论断信息的第一信息中两个信息之间的相似度;
判断所述相似度是否大于第二阈值,得到第五判断结果;
基于第五判断结果表征所述相似度大于第二阈值,所述第一信息中的所述两个信息属于同一第一分层类别;
在同一第一分层类别中,获取任意两个第一信息并判断所述两个第一信息的相似度是否大于第三阈值,得到第六判断结果;
基于第六判断结果表征所述相似度大于第三阈值,判定所述两个第一信息属于同一第二分层类别。
上述的方法,优选的,所述依据预设的检测信息,分析判断所述代表信息是否属于嫌疑信息,包括:
将所述代表信息输入所述预设的检测模型,得到所述代表信息的嫌疑值;
判断所述嫌疑值是否大于第四阈值,得到第七判断结果;
基于第七判断结果表征所述嫌疑值大于第四阈值,判定所述代表信息属于嫌疑信息。
一种电子设备,包括:
获取模块,用于获取网络中至少两个待处理信息;
筛选模块,用于依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。
上述的电子设备,优选的,还包括:
显示模块,用于展示所述嫌疑信息。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种信息处理方法,包括:获取网络中至少两个待处理信息;依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。采用该方法,预设有筛选规则,该筛选规则能够对网络中的多个待处理信息进行筛选,确定其中的嫌疑信息,以实现从网络中的海量信息中确定出具有嫌疑的信息,无需人工对网络中的海量信息进行一一查看,减少了确定信息内容真伪的时间长度,实时性较好。并且,采用该方法,少了人力物力的消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种信息处理方法实施例1的流程图;
图2为本发明提供的一种信息处理方法实施例2的流程图;
图3为本发明提供的一种信息处理方法实施例3的流程图;
图4为本发明提供的一种信息处理方法实施例3中的分层示意图;
图5为本发明提供的一种信息处理方法实施例4的流程图;
图6为本发明提供的一种信息处理方法实施例5的流程图;
图7为本发明提供的一种信息处理方法实施例6的流程图;
图8为本发明提供的一种信息处理方法实施例7的流程图;
图9为本发明提供的一种电子设备实施例1的结构示意图;
图10为本发明提供的一种电子设备实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,为本发明提供的一种信息处理方法实施例1的流程图,该方法应用一电子设备中,该电子设备具体可以采用可以为笔记本、平板电脑、手机、智能电视、智能手表或者穿戴式设备等形式的电子设备。
其中,该方法包括以下步骤:
步骤S101:获取网络中至少两个待处理信息;
其中,网络中具有海量的信息,其中,至少有两个能够作为待处理信息,该待处理信息即为需要判断内容是否真实是否为谣言的信息。
具体的,该待处理信息可以为基于微博、微信、QQ等应用传输的信息,本申请中不对该待处理信息的类型、具体来源等做限制,仅是对该信息的内容真伪做分析。
具体实施中,该待处理信息可以包括网络服务器中缓存/存储的信息。
步骤S102:依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。
其中,电子设备中预设筛选规则,基于该筛选规则能够对待处理信息进行筛选,确定其中的嫌疑信息。
其中,该嫌疑信息是指有信息内容有可能是假消息、该待处理信息可以为谣言信息。
具体的,基于该预设筛选规则,在海量的待处理信息中自动筛选得到其中的嫌疑信息,无需人工对网络中的海量信息进行一一查看,减少了确定信息内容真伪的时间长度。
综上,本实施例提供的一种信息处理方法,包括:获取网络中至少两个待处理信息;依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。采用该方法,预设的筛选规则能够对网络中的多个待处理信息进行筛选,确定其中的嫌疑信息,以实现从网络中的海量信息中确定出具有嫌疑的信息,无需人工对网络中的海量信息进行一一查看,减少了确定信息内容真伪的时间长度,实时性较好,少了人力物力的消耗。
请参阅附图2,为本发明提供的一种信息处理方法实施例2的流程图,该方法包括以下步骤:
步骤S201:获取网络中至少两个待处理信息;
步骤S202:依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息;
其中,步骤S201-202与实施例1中的步骤S101-102一致,本实施例中不做赘述。
步骤S203:展示所述嫌疑信息。
其中,在筛选到嫌疑信息,对该嫌疑信息进行展示,以使得人工对确定的嫌疑信息进一步进行人工辨别,能够更加准确的确定信息中的内容的真伪,从而确定哪些消息为谣言信息。
需要说明的是,由于在该步骤S202中经筛选得到的嫌疑信息的步骤已经将海量数量级的信息量减少为较少的信息量,即使由人工进行信息真伪的辨别,相对于现有技术中对海量信息直接进行真伪辨别所需的工作量而言减少很多。
综上,本实施例提供的一种信息处理方法,还包括:展示所述嫌疑信息。采用该方法,对筛选得到的嫌疑信息进行展示,使得人工对确定的嫌疑信息进一步进行人工辨别,能够更加准确的确定信息中的内容的真伪,从而确定哪些消息为谣言信息。
请参阅附图3,为本发明提供的一种信息处理方法实施例3的流程图,该方法包括以下步骤:
步骤S301:获取网络中至少两个待处理信息;
其中,步骤S301与实施例1中的步骤S101一致,本实施例中不做赘述。
步骤S302:依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;
其中,查询关键字是用于确定该待处理信息是否需要判断其是否为嫌疑信息。
需要说明的是,网络中的某些信息,如单独的词、字甚至标点符号、表情符号、或者某些简单的词组、短语,由于其一般并未携带有具有明确观点的信息,所以,这些信息无需进行判断是否为嫌疑信息。
具体的,本实施例中通过查询关键字,在获取的待处理信息中筛选得到包含该查询关键字的第一信息,以实现将无需进行判断是否为嫌疑信息的待处理信息筛除掉,减少后续进行信息处理的处理量。
步骤S303:依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;
其中,基于该分析规则,对第一信息进行分析判断,确定其是否属于论断信息。
具体实施中,该分析规则包括句法分析规则,基于该分析规则可以对语句进行句法分析,并确定该语句是否为论断语句。
需要说明的是,具有论断性质的语句一般会携带有具有明确观点的信息内容,因此,后续步骤中可仅对论断信息进行处理,而不属于论断信息的则可以忽略,认为其不属于嫌疑信息。
例如,“俄国于11月19日当地时间晚间对土耳其进行导弹攻击。”,该信息中具有明确观点,可对该信息进行分析得到其属于论断信息。
步骤S304:基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;
其中,该聚类规则是将不同的信息按照类别进行分层分类,实现针对不同类别的信息进行处理,减少需要进行处理的数据量。
具体的,将属于论断信息的第一信息进行分层聚类,具体包括:将全部的属于论断信息的第一信息进行分类,然后将不同类别的第一信息进行聚类,得到第二层次的信息,继续将该第二层次的信息进行分类,依次分层聚类。
需要说明的是,后续实施例中会对该分层聚类的具体过程做详细解释,本实施例中不做详述。
步骤S305:从每一分层类别中的第一信息获取一个作为代表信息;
其中,采用抽样方式,确定每一分层类别中的第一信息是否属于嫌疑信息。
具体的,可以在每层的每个类别中选择一个第一信息作为代表信息。
需要说明的是,本申请文件中,不对选择的方式做限制。
步骤S306:依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;
其中,设置有检测模型,将该代表信息输入该检测模型,基于该检测模型输出的结果,确定该代表信息是否为嫌疑信息。
后续实施例中会针对确定代表信息是否为嫌疑信息进行详细解释,本实施例中不做详述。
步骤S307:基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
其中,由于该代表信息表征的为其所属的某一类别的信息,所以,基于该代表信息属于嫌疑信息,有理由认为该代表信息所属类别中的全部的第一信息属于嫌疑信息。
需要说明的是,为减少人工识别信息的工作量,可以按照分层的层次,由高到低的层次依次确定代表信息。
如图4所示的本实施例中的分层示意图,其中ABCDE为最底层,FGH为第二层,IJ为最高层,则在分析代表信息时,可以首先对最高层的代表信息i(I的代表信息)和j(J的代表信息)进行分析,当确定i为嫌疑信息时,即可确定该I类别的信息为嫌疑信息;而当该最高层无嫌疑信息时,可进一步对第二层的代表信息依次进行分析。以此类推,由高到低对每层的代表信息进行分析。
综上,本实施例提供的一种信息处理方法,该依据预设筛选规则,筛选得到所述待处理的信息中的嫌疑信息,包括:依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;从每一分层类别中的第一信息获取一个作为代表信息;依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。采用该方法,按照分层聚类的方式,将同一类别的待处理信息进行合并处理,减少了该信息处理过程中电子设备的负担。
请参阅附图5,为本发明提供的一种信息处理方法实施例4的流程图,该方法包括以下步骤:
步骤S501:获取网络中至少两个待处理信息;
其中,步骤S501与实施例3中的步骤S301一致,本实施例中不做赘述。
步骤S502:基于输入信息获取查询关键字;
步骤S503:依据所述查询关键字在所述至少两个待处理信息中筛选包含所述查询关键字的第一信息;
其中,该输入信息为根据用户在电子设备的预设操作区域执行的操作生成。
具体的,该操作可以为用户输入确定开始对网络中的信息进行处理的操作,也可以为用户输入的字符信息等。
其中,基于该输入信息能够确定相应的查询关键字。
具体的,该步骤S502可以包括:基于输入信息,在关键字词库中获取预设的查询关键字,所述输入信息基于用户的查询操作生成;或者基于用户输入的字符信息,生成查询关键字。
步骤S504:依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;
步骤S505:基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;
步骤S506:从每一分层类别中的第一信息获取一个作为代表信息;
步骤S507:依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;
步骤S508:基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
其中,步骤S504-508与实施例3中的步骤S303-307一致,本实施例中不做赘述。
综上,本实施例提供的一种信息处理方法中,该依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息,包括:基于输入信息获取查询关键字;依据所述查询关键字在所述至少两个待处理信息中筛选包含所述查询关键字的第一信息。采用该方法,基于用户的输入信息获取相应的查询关键字,并确定该待处理信息中包含该查询关键字的第一信息,以实现对待处理信息中的信息进行筛选,减少信息处理量。
请参阅附图6,为本发明提供的一种信息处理方法实施例4的流程图,该方法包括以下步骤:
步骤S601:获取网络中至少两个待处理信息;
步骤S602:依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;
其中,步骤S601-602与实施例3中的步骤S301-302一致,本实施例中不做赘述。
步骤S603:依据预设的分类规则,分析得到所述第一信息的内容类别;
其中,该内容类别是指该第一信息的内容所属的类别,具体实施中,一般包括主体类别、事件类别以及其他类别。
需要说明的是,易发生谣言信息的为主体和事件相关,即某些人发生了某些事。
例如:某人病逝、或某些事发生。如智利地震了。
具体的,该分类规则可以由分类模型实现,该分类模型能够对句子的主语、谓语、宾语进行分析,分析信息的句子的句法结构,当该句子的句法结构中缺失主语谓语中的任一个时,则可确定该信息不属于主体类别、事件类别,而是属于其他类别。
具体实施中,还可对信息的句子中的感叹词进行分析判断,如该感叹词中包含有特定的侮辱含义的词语(如脏话),则可确定该信息不属于主体类别、事件类别,而是属于其他类别。
步骤S604:判断所述第一信息的内容类别是否属于主体事件类别,得到第三判断结果;
其中,基于步骤S603中分析得到的类别,可直接判断该第一信息的内容类别是否属于主体事件类别,如果是,则执行步骤S605,否则忽略该第一信息。
因此,在进行特征提取之前,为进一步减少数据处理量,对其进行主体事件分类。
步骤S605:基于第三判断结果表征所述第一信息的内容类别属于主体事件类别,依据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息;
其中,当确定该第一信息的内容类别属于主体事件类别时,还需要对该第一信息是否属于论断信息进行分析。
具体的,该语义句法分析规则可以为预先训练得到。如,采用人工预先对一些论断信息的语义和句法特征进行分析,训练得到相应的算法、形成特征库,基于该特征库可对第一信息是否属于论断信息进行分析。
具体的,该步骤S605包括:依据预设的句法划分规则,分析得到第二信息中包含的至少两个字在所述第二信息中表示的句子元素;分析预设的标准论断信息句子元素排列规则与所述第二信息中的句子元素,得到所述第二信息与所述标准论断信息的匹配值;判断所述匹配值是否大于第一阈值,得到第四判断结果;基于第四判断结果表征所述匹配值大于第一阈值,判定所述第二信息属于论断信息。
其中,该句子元素包括:主语、谓语、宾语、定语、状语、补语等六大基本元素以及其他元素如语气助词等。
具体实施中,还可预设论断信息的几种标准句法,将该第二信息的句法与其中的某一最接近的标准句法进行比对,得到二者的匹配值,当该匹配值大于某一阈值,则认为二者匹配,此时判定该第二信息属于论断信息。
具体的,可通过对第二信息的句子拆分为字、词、短语等因素,分析各个因素之间的修饰关系;或者将该第二信息的句子按照句子元素拆分为主语、谓语、宾语、定语、状语和补语中的至少两个。
具体实施中,每种标准句法都有相应的句子元素排列方式,按照句子元素的排列方式对第二信息中拆分得到的句子元素排列方式进行比对,并得到相应的匹配值,当该匹配值大于第一阈值,判定该第二信息属于论断信息。
其中,该匹配值可根据实际情况进行设置,如可设为0.6等,本申请中不对该匹配值的具体取值做限制。
步骤S606:基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;
步骤S607:从每一分层类别中的第一信息获取一个作为代表信息;
步骤S608:依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;
步骤S609:基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
其中,步骤S606-609与实施例3中的步骤S304-307一致,本实施例中不做赘述。
综上,本实施例提供的一种信息处理方法中,该依据预设的分析规则,分析判断所述第一信息是否属于论断信息,包括:依据预设的分类规则,分析得到所述第一信息的内容类别;判断所述第一信息的内容类别是否属于主体事件类别,得到第三判断结果;基于第三判断结果表征所述第一信息的内容类别属于主体事件类别,依据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息。采用该方法,通过对第一信息的内容进行分类,确定属于主体事件后,仅对属于主体事件类别的信息进行是否属于论断信息的判断,减少了判断论断信息的数据量。
请参阅附图7,为本发明提供的一种信息处理方法实施例6的流程图,该方法包括以下步骤:
步骤S701:获取网络中至少两个待处理信息;
步骤S702:依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;
步骤S703:依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;
其中,步骤S701-703与实施例3中的步骤S301-303一致,本实施例中不做赘述。
步骤S704:基于第一判断结果表征所述第一信息属于论断信息,依据预设的相似性分析规则,计算各个属于论断信息的第一信息中两个信息之间的相似度;
其中,本申请中采用的合成聚类算法,对每个论断信息向量化,通过向量空间的距离进行聚类。
具体的,采用词频率和逆向文件频率计算每个第一信息的向量值。
其中,该词频率是指一个文件中,某词汇出现的频率,采用TF表示。该逆向文件频率是指文件数目除以包含该词语之文件的数目的对数,可采用IDF表示。
假如一篇文件的总词语数是1000个,而词语“巴黎”出现了30次,那么“巴黎”一词在此文件中的词频就是0.03(30/1000)。一个计算文件频率(DF)的方法是测定有多少份文件出现过“巴黎”一词,然后除以文件集里包含的文件总数。所以,如果“巴黎”一词在1,00份文件出现过,而文件总数是1,000,000份的话,其文件频率就是0.0001(100/1,000,0,00)。最后,TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说,“巴黎”一词在该文件集的TF-IDF分数会是300(0.03/0.0001)。
具体实施中,两个第一信息之间的相似度是通过两个信息的向量值通过向量点积除以向量长度积计算得到,计算得到的为一个确定的数值。
步骤S705:判断所述相似度是否大于第二阈值,得到第五判断结果;
步骤S706:基于第五判断结果表征所述相似度大于第二阈值,确定所述第一信息中的所述两个信息属于同一第一分层类别;
其中,本实施例中还预设有第二阈值,该第二阈值可根据实际情况进行自主设置。
当该相似度大于第二阈值时,可认为该判断相似度的两个第一信息属于同一类别,否则,不属于同一类别。
步骤S707:在同一第一分层类别中,获取任意两个第一信息并判断所述两个第一信息的相似度是否大于第三阈值,得到第六判断结果;
步骤S708:基于第六判断结果表征所述相似度大于第三阈值,判定所述两个第一信息属于同一第二分层类别;
其中,在第一分层列表中,可以确定其中任意两个第一信息之间的相似度,并在二者的相似度大于预设的第三阈值时,将二者判定属于同一第二分层的类别。
同理的,可以循环执行如步骤S707和步骤S708的方式,继续判定两个第一信息是否属于同一第三分层类别。
需说明的是,采用该分层聚类的方式,能够将待处理信息的数量降低大概4个数量级。
步骤S709:从每一分层类别中的第一信息获取一个作为代表信息;
步骤S710:依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;
步骤S711:基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
其中,步骤S709-711与实施例3中的步骤S305-307一致,本实施例中不做赘述。
综上,本实施例提供的一种信息处理方法中,该依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别,包括:依据预设的相似性分析规则,计算各个属于论断信息的第一信息中两个信息之间的相似度;判断所述相似度是否大于第二阈值,得到第五判断结果;基于第五判断结果表征所述相似度大于第二阈值,所述第一信息中的所述两个信息属于同一第一分层类别;在同一第一分层类别中,获取任意两个第一信息并判断所述两个第一信息的相似度是否大于第三阈值,得到第六判断结果;基于第六判断结果表征所述相似度大于第三阈值,判定所述两个第一信息的属于同一第二分层类别。采用该方法,实现了对大量的第一信息进行分层聚类,实现降低待处理信息数据量。
请参阅附图8,为本发明提供的一种信息处理方法实施例7的流程图,该方法包括以下步骤:
步骤S801:获取网络中至少两个待处理信息;
步骤S802:依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;
步骤S803:依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;
步骤S804:基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;
步骤S805:从每一分层类别中的第一信息获取一个作为代表信息;
其中,步骤S801-805与实施例3中的步骤S301-305一致,本实施例中不做赘述。
步骤S806:将所述代表信息输入所述预设的检测模型,得到所述代表信息的嫌疑值;
其中,该预设的检测模型可以采用隐性马科夫模型,具体实施中,该模型是基于嫌疑信息(谣言信息)训练得出。基于该隐形马科夫模型能够计算得到一连串事件连续发生的概率,基于该概率计算得到该代表信息嫌疑值。
具体实施中,当该模型计算得到的概率较小(如0.2)时,则可确定该代表信息的嫌疑值(0.8)较大。
其中,该检测模型可以为预设的嫌疑信息的时间序列特征、相关用户特征以及谣言传播特性。
具体的,该相关用户特征可以包括地理位置信息、历史嫌疑信息情况等。
其中,该时间序列特征可以包括:嫌疑信息的发布时间早于事件发生时间、嫌疑信息的发布时间略晚于事件发生时间但是嫌疑信息包含大量细节等不符合正常信息传输的规律。
其中,该谣言传播特性包含有时间条件、转发人条件或者与上一条信息的关系等。
例如,甲乙两人,甲发布的大部分信息乙都会转发。但是甲发布的某一条信息乙并未转发,则该未转发的信息已经被乙判断过,很有可能为嫌疑信息,则增加了该信息为嫌疑信息的概率。
具体实施中,可根该检测模型中的几个条件进行权重计算,得到相应的嫌疑值。
步骤S807:判断所述嫌疑值是否大于第四阈值,得到第七判断结果;
基于第七判断结果表征所述嫌疑值大于第四阈值,判定所述代表信息属于嫌疑信息;
其中,该代表信息的嫌疑值大于预设的第四阈值,则判定该代表信息属于嫌疑信息。
步骤S808:基于所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
其中,步骤S808与实施例3中的步骤S307一致,本实施例中不做赘述。
综上,本实施例提供的一种信息处理方法中,该依据预设的检测信息,分析判断所述代表信息是否属于嫌疑信息,包括:将所述代表信息输入所述预设的检测模型,得到所述代表信息的嫌疑值;判断所述嫌疑值是否大于第四阈值,得到第七判断结果;基于第七判断结果表征所述嫌疑值大于第四阈值,判定所述代表信息属于嫌疑信息。采用该方法,将代表信息是否为嫌疑信息进行量化计算,依据得到的嫌疑值判断代表信息是否为嫌疑信息,精确度较高。
上述本发明提供的实施例中详细描述了一种信息处理方法,对于本发明的信息处理方法可采用多种形式的装置实现,因此本发明还提供了一种应用该信息处理方法的电子设备,下面给出具体的实施例进行详细说明。
请参阅附图9,为本发明提供的一种电子设备实施例1的结构示意图,,该电子设备具体可以采用可以为笔记本、平板电脑、手机、智能电视、智能手表或者穿戴式设备等形式的电子设备。
其中,该电子设备包括以下结构:获取模块901和筛选模块902;
其中,获取模块901,用于获取网络中至少两个待处理信息;
其中,筛选模块902,用于依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。
具体实施中,该筛选模块可以由电子设备中具有数据处理能力的结构实现,如CPU(centralprocessingunit,中央处理器)。
优选的,所述依据预设筛选规则,筛选得到所述待处理的信息中的嫌疑信息,包括:依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;从每一分层类别中的第一信息获取一个作为代表信息;依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
优选的,所述依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息,包括:基于输入信息获取查询关键字;依据所述查询关键字在所述至少两个待处理信息中筛选包含所述查询关键字的第一信息。
优选的,所述基于输入信息获取查询关键字,包括:基于输入信息,在关键字词库中获取预设的查询关键字,所述输入信息基于用户的查询操作生成;或者基于用户输入的字符信息,生成查询关键字。
优选的,所述依据预设的分析规则,分析判断所述第一信息是否属于论断信息,包括:依据预设的分类规则,分析得到所述第一信息的内容类别;判断所述第一信息的内容类别是否属于主体事件类别,得到第三判断结果;基于第三判断结果表征所述第一信息的内容类别属于主体事件类别,依据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息。
优选的,所述据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息,包括:依据预设的句法划分规则,分析得到第二信息中包含的至少两个字在所述第二信息中表示的句子元素;分析预设的标准论断信息句子元素排列规则与所述第二信息中的句子元素,得到所述第二信息与所述标准论断信息的匹配值;判断所述匹配值是否大于第一阈值,得到第四判断结果;基于第四判断结果表征所述匹配值大于第一阈值,判定所述第二信息属于论断信息。
优选的,所述依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别,包括:依据预设的相似性分析规则,计算各个属于论断信息的第一信息中两个信息之间的相似度;判断所述相似度是否大于第二阈值,得到第五判断结果;基于第五判断结果表征所述相似度大于第二阈值,所述第一信息中的所述两个信息属于同一第一分层类别;在同一第一分层类别中,获取任意两个第一信息并判断所述两个第一信息的相似度是否大于第三阈值,得到第六判断结果;基于第六判断结果表征所述相似度大于第三阈值,判定所述两个第一信息属于同一第二分层类别。
优选的,所述依据预设的检测信息,分析判断所述代表信息是否属于嫌疑信息,包括:将所述代表信息输入所述预设的检测模型,得到所述代表信息的嫌疑值;判断所述嫌疑值是否大于第四阈值,得到第七判断结果;基于第七判断结果表征所述嫌疑值大于第四阈值,判定所述代表信息属于嫌疑信息。
综上,本实施例提供的一种电子设备中,预设的筛选规则能够对网络中的多个待处理信息进行筛选,确定其中的嫌疑信息,以实现从网络中的海量信息中确定出具有嫌疑的信息,无需人工对网络中的海量信息进行一一查看,减少了确定信息内容真伪的时间长度,实时性较好,少了人力物力的消耗。
请参阅附图10,为本发明提供的一种电子设备实施例2的结构示意图,其中,该电子设备包括以下结构:获取模块1001、筛选模块1002和显示模块1003;
其中,获取模块1001、筛选模块1002与实施例1中的相应结构功能一致,本实施例中不做赘述。
其中,显示模块1003,用于展示所述嫌疑信息。
具体实施中,该显示模块可以采用电子设备的显示屏幕。
其中,在筛选到嫌疑信息,对该嫌疑信息进行展示,以使得人工对确定的嫌疑信息进一步进行人工辨别,能够更加准确的确定信息中的内容的真伪,从而确定哪些消息为谣言信息。
需要说明的是,由于在该筛选模块1002中经筛选得到的嫌疑信息已经将海量数量级的信息量减少为较少的信息量,即使由人工进行信息真伪的辨别,相对于现有技术中对海量信息直接进行真伪辨别所需的工作量而言减少很多。
综上,本实施例提供的一种电子设备,对筛选得到的嫌疑信息进行展示,使得人工对确定的嫌疑信息进一步进行人工辨别,能够更加准确的确定信息中的内容的真伪,从而确定哪些消息为谣言信息。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种信息处理方法,其特征在于,包括:
获取网络中至少两个待处理信息;
依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。
2.根据权利要求1所述的方法,其特征在于,所述依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息之后,还包括:
展示所述嫌疑信息。
3.根据权利要求1所述方法,其特征在于,所述依据预设筛选规则,筛选得到所述待处理的信息中的嫌疑信息,包括:
依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息;
依据预设的分析规则,分析判断所述第一信息是否属于论断信息,得到第一判断结果;
基于第一判断结果表征所述第一信息属于论断信息,依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别;
从每一分层类别中的第一信息获取一个作为代表信息;
依据预设的检测模型,分析判断所述代表信息是否属于嫌疑信息,得到第二判断结果;
基于第二判断结果表征所述代表信息属于嫌疑信息,确定所述代表信息所属类别中的第一信息全部属于嫌疑信息。
4.根据权利要求3所述的方法,其特征在于,所述依据查询关键字,获取所述至少两个待处理信息中包含所述查询关键字的第一信息,包括:
基于输入信息获取查询关键字;
依据所述查询关键字在所述至少两个待处理信息中筛选包含所述查询关键字的第一信息。
5.根据权利要求4所述的方法,其特征在于,所述基于输入信息获取查询关键字,包括:
基于输入信息,在关键字词库中获取预设的查询关键字,所述输入信息基于用户的查询操作生成;
或者
基于用户输入的字符信息,生成查询关键字。
6.根据权利要求3所述的方法,其特征在于,所述依据预设的分析规则,分析判断所述第一信息是否属于论断信息,包括:
依据预设的分类规则,分析得到所述第一信息的内容类别;
判断所述第一信息的内容类别是否属于主体事件类别,得到第三判断结果;
基于第三判断结果表征所述第一信息的内容类别属于主体事件类别,依据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息。
7.根据权利要求6所述的方法,其特征在于,所述据预设的语义句法分析规则,分析第一信息中属于主体事件类别的第二信息是否属于论断信息,包括:
依据预设的句法划分规则,分析得到第二信息中包含的至少两个字在所述第二信息中表示的句子元素;
分析预设的标准论断信息句子元素排列规则与所述第二信息中的句子元素,得到所述第二信息与所述标准论断信息的匹配值;
判断所述匹配值是否大于第一阈值,得到第四判断结果;
基于第四判断结果表征所述匹配值大于第一阈值,判定所述第二信息属于论断信息。
8.根据权利要求3所述的方法,其特征在于,所述依据预设的聚类规则,将属于论断信息的第一信息进行分层聚类,得到至少两个分层类别,包括:
依据预设的相似性分析规则,计算各个属于论断信息的第一信息中两个信息之间的相似度;
判断所述相似度是否大于第二阈值,得到第五判断结果;
基于第五判断结果表征所述相似度大于第二阈值,所述第一信息中的所述两个信息属于同一第一分层类别;
在同一第一分层类别中,获取任意两个第一信息并判断所述两个第一信息的相似度是否大于第三阈值,得到第六判断结果;
基于第六判断结果表征所述相似度大于第三阈值,判定所述两个第一信息属于同一第二分层类别。
9.根据权利要求3所述的方法,其特征在于,所述依据预设的检测信息,分析判断所述代表信息是否属于嫌疑信息,包括:
将所述代表信息输入所述预设的检测模型,得到所述代表信息的嫌疑值;
判断所述嫌疑值是否大于第四阈值,得到第七判断结果;
基于第七判断结果表征所述嫌疑值大于第四阈值,判定所述代表信息属于嫌疑信息。
10.一种电子设备,其特征在于,包括:
获取模块,用于获取网络中至少两个待处理信息;
筛选模块,用于依据预设筛选规则,筛选得到所述至少两个待处理信息中的嫌疑信息。
11.根据权利要求10所述的电子设备,其特征在于,还包括:
显示模块,用于展示所述嫌疑信息。
CN201610158021.5A 2016-03-18 2016-03-18 一种信息处理方法和电子设备 Active CN105787101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610158021.5A CN105787101B (zh) 2016-03-18 2016-03-18 一种信息处理方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610158021.5A CN105787101B (zh) 2016-03-18 2016-03-18 一种信息处理方法和电子设备

Publications (2)

Publication Number Publication Date
CN105787101A true CN105787101A (zh) 2016-07-20
CN105787101B CN105787101B (zh) 2019-06-07

Family

ID=56394052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610158021.5A Active CN105787101B (zh) 2016-03-18 2016-03-18 一种信息处理方法和电子设备

Country Status (1)

Country Link
CN (1) CN105787101B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570162A (zh) * 2016-11-04 2017-04-19 北京百度网讯科技有限公司 基于人工智能的谣言识别方法及装置
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258039A (zh) * 2013-05-20 2013-08-21 中国地质大学(武汉) 一种微博伪造信息的检测方法
CN103902621A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
JP2015005057A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 情報判定装置および情報判定方法
US20150066763A1 (en) * 2013-08-29 2015-03-05 Bank Of America Corporation Method and apparatus for cross channel monitoring
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902621A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
CN103258039A (zh) * 2013-05-20 2013-08-21 中国地质大学(武汉) 一种微博伪造信息的检测方法
JP2015005057A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 情報判定装置および情報判定方法
US20150066763A1 (en) * 2013-08-29 2015-03-05 Bank Of America Corporation Method and apparatus for cross channel monitoring
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570162A (zh) * 2016-11-04 2017-04-19 北京百度网讯科技有限公司 基于人工智能的谣言识别方法及装置
CN106570162B (zh) * 2016-11-04 2020-07-28 北京百度网讯科技有限公司 基于人工智能的谣言识别方法及装置
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统
CN110188284B (zh) * 2019-04-25 2022-01-28 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统

Also Published As

Publication number Publication date
CN105787101B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
Garimella et al. Quantifying controversy on social media
CN109145215B (zh) 网络舆情分析方法、装置及存储介质
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US20210034819A1 (en) Method and device for identifying a user interest, and computer-readable storage medium
Stamatatos et al. Clustering by authorship within and across documents
Ye et al. Sentiment classification for movie reviews in Chinese by improved semantic oriented approach
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
CN106570144A (zh) 推荐信息的方法和装置
CN108304371B (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
KR20110115542A (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN107704500B (zh) 一种基于语义分析与多重余弦定理的新闻分类方法
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN107085568A (zh) 一种文本相似度判别方法及装置
Liu et al. Mining learning-dependency between knowledge units from text
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN105787101A (zh) 一种信息处理方法和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant