CN107220300B - 信息挖掘方法、电子装置及可读存储介质 - Google Patents
信息挖掘方法、电子装置及可读存储介质 Download PDFInfo
- Publication number
- CN107220300B CN107220300B CN201710313993.1A CN201710313993A CN107220300B CN 107220300 B CN107220300 B CN 107220300B CN 201710313993 A CN201710313993 A CN 201710313993A CN 107220300 B CN107220300 B CN 107220300B
- Authority
- CN
- China
- Prior art keywords
- participle
- information
- speech
- phrase
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息挖掘方法、电子装置及可读存储介质,该方法包括:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。本发明实现对信息的深度挖掘,准确获取到信息中的核心观点信息。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息挖掘方法、电子装置及可读存储介质。
背景技术
目前,在信息挖掘和推送领域,业界通常是实时或者定时在预先确定的数据源(例如,各大新闻网站)对特定类型的信息(例如,新闻标题信息)进行分析筛选,以自动挖掘出目标信息。现有的分析筛选方案是:预先训练好识别信息的类别标签的分类器;再利用训练好的分类器对特定类型的信息的类别标签进行识别,以识别出属于预设类别标签的目标信息。这种现有的分析筛选方案只能识别出属于预设类别标签的目标信息,无法对目标信息指向的核心观点信息进行深度挖掘,使得目标信息的挖掘和推送的准确性无法保障,容易出错。
发明内容
本发明的主要目的在于提供一种信息挖掘方法、电子装置及可读存储介质,旨在有效挖掘出核心观点信息。
为实现上述目的,本发明提供的一种信息挖掘方法,所述方法包括以下步骤:
实时或者定时从预先确定的数据源获取特定类型的信息;
对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;
根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。
优选地,所述对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。
优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;
为各个信息的各个分词标注对应的词性。
优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:
A1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;
A2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;
A3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;
A4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;
A5、重复执行上述步骤A3和A4,直到确定出各个节点分支的最后一级节点对应的分词。
优选地,所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:
基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;
分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。
此外,为实现上述目的,本发明还提供一种电子装置,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息挖掘系统,所述信息挖掘系统被所述处理器执行时实现如下步骤:
实时或者定时从预先确定的数据源获取特定类型的信息;
对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;
根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。
优选地,所述对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。
优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;为各个信息的各个分词标注对应的词性。
优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:
在各个信息对应的各个分词中,找出各个预设词性的目标分词;根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语,直到确定出各个节点分支的最后一级节点对应的分词。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有信息挖掘系统,所述信息挖掘系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的信息挖掘方法的步骤。
本发明提出的信息挖掘方法、电子装置及可读存储介质,对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。
附图说明
图1为本发明信息挖掘系统10较佳实施例的运行环境示意图;
图2为本发明信息挖掘系统10一实施例的功能模块示意图;
图3为本发明信息挖掘方法一实施例中预设结构分词树的示意图;
图4为本发明信息挖掘方法一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种信息挖掘系统。请参阅图1,是本发明信息挖掘系统10较佳实施例的运行环境示意图。
在本实施例中,所述的信息挖掘系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述信息挖掘系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述信息挖掘系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置1的部件11-13通过系统总线相互通信。
请参阅图2,是本发明信息挖掘系统10较佳实施例的功能模块图。在本实施例中,所述的信息挖掘系统10可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器11中,并由一个或多个处理器(本实施例为所述处理器12)所执行,以完成本发明。例如,在图2中,所述的信息挖掘系统10可以被分割成获取模块01、分词模块02、构建模块03、解析模块04;上述各模块包括一系列计算机程序指令段,这些计算机程序指令段可被处理器12执行,以实现本申请各实施例所提供的对应的功能。以下描述将具体介绍所述模块01-04的功能。
获取模块01,用于实时或者定时从预先确定的数据源获取特定类型的信息。例如,可通过网络爬虫等工具实时或者定时从预先确定的数据源(例如,各大新闻网站、论坛等)获取特定类型的信息(例如,新闻标题信息、索引信息、简介信息等)。
分词模块02,用于对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注。对从数据源中获取到的特定类型的各个信息后,可对获取的各个信息进行分词处理。例如,可利用字符串匹配的分词方法对各个信息进行分词处理,如正向最大匹配法,把一个信息中的字符串从左至右来分词,即从左到右将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,反向最大匹配法,把一个信息中的字符串从右至左来分词,即从待分词的信息文本的末端开始匹配扫描,从右至左将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,最短路径分词法,一个信息中的字符串里面要求切出的词数是最少的;或者,双向最大匹配法,正反向同时进行分词匹配。还可利用词义分词法对各个信息进行分词处理,词义分词法是一种机器语音判断的分词方法,利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个信息进行分词处理,从当前用户的历史搜索记录或大众用户的历史搜索记录中,根据词组的统计,会统计有些两个相邻的字出现的频率较多,则可将这两个相邻的字作为词组来进行分词。对获取的各个信息完成分词处理后,可对各个信息对应的各个分词(包括词组和单字)进行词性标注。例如,所述词性包括:实词—名词、动词、形容词、数量词、代词等;虚词—副词、介词、连词、助词、叹词、拟声词等。
构建模块03,用于根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
解析模块04,用于在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。
对各个信息对应的各个分词进行词性标注后,根据各个信息中各个分词的顺序以及各个分词标注的词性,将各个信息对应的各个分词构建成预设结构分词树。如可设置预设结构分词树中不同词性对应的节点级别,将一个信息中的各个分词作为不同节点,构建该信息对应的预设结构分词树;还可将不同词性的分词组成分词短语,以与各个分词形成不同的节点级别,构建该信息对应的预设结构分词树。在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。例如,可设置某一词性的分词为核心信息,或从历史搜索记录中统计确定出核心信息对应的词性的分词,将该词性设置为核心词性,则在该信息对应的预设结构分词树中找出属于核心词性,且在预设结构分词树中到主节点的节点距离最短的分词,作为该信息对应的核心观点信息。还可设置多个核心词性,在该信息对应的预设结构分词树中找出属于核心词性的多个分词,且找到预设结构分词树中属于核心词性的多个分词之间节点距离最短的分词组合,将该分词组合对应的信息作为该信息的核心观点信息。
本实施例对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。
进一步地,在其他实施例中,在根据该信息对应的预设结构分词树解析出该信息对应的核心观点信息之后,上述解析模块04还用于:
利用预先训练好的分类器识别出该信息的核心观点信息对应的分类标签;若识别出的分类标签属于预先确定的分类标签,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端。例如,若用户感兴趣的为体育类的信息,则可预先确定分类标签为“体育”,在解析出从数据源得到的信息中的核心观点信息之后,可进一步地识别出该信息的核心观点信息对应的分类标签,若识别出的分类标签属于“体育”类标签,则判断该信息为用户感兴趣的信息,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端如用户的手机、平板电脑等,从而实现目标信息的有效挖掘和精准推送。
进一步地,在其他实施例中,上述分词模块02还用于:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果。其中,所述第一匹配结果中包含有第一数量的第一词组,所述第二匹配结果中包含有第二数量的第二词组;所述第一匹配结果中包含有第三数量的单字,所述第二匹配结果中包含有第四数量的单字。
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则输出所述第一匹配结果(包括词组和单字);
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则输出所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则输出所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则输出所述第一匹配结果(包括词组和单字)。
本实施例中采用双向匹配法来对获取的各个信息进行分词处理,通过正反向同时进行分词匹配来分析各个信息待处理的字符串中前后组合内容的粘性,由于通常情况下词组能代表核心观点信息的概率更大,即通过词组更能表达出核心观点信息。因此,通过正反向同时进行分词匹配找出单字数量更少,词组数量更多的分词匹配结果,以作为信息的分词结果,从而提高分词及信息挖掘的准确性。
进一步地,在其他实施例中,上述分词模块02还用于:
根据通用字词典库中字和词分别与词性的映射关系(例如,通用字词典库中,操场对应的词性是名词),及/或,预设的字和词分别与词性的映射关系(例如,预设的字和词分别与词性的映射关系中,操场对应的词性是常用名词),确定各个信息的各个分词对应的词性,并为各个信息的各个分词标注对应的词性。其中,预设的字和词分别与词性的映射关系的词性标注优先级高于通用字词典库中字和词分别与词性的映射关系。例如,若通用字词典库中操场对应的词性是名词,而预设的字和词分别与词性的映射关系中操场对应的词性是常用名词,则优先按照预设的字和词分别与词性的映射关系来标注,即对操场标注的词性为常用名词。
进一步地,在其他实施例中,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,上述构建模块03还用于:
在各个信息对应的各个分词中,找出各个预设词性的目标分词;根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语,直到确定出各个节点分支的最后一级节点对应的分词。
上述解析模块04还用于:
基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。
在一种具体实施方式中,如图3所示,该信息为“我去操场踢足球”,对应的分词结果为“我去操场踢足球”,词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”。为该信息“我去操场踢足球”构建的预设结构分词树参见图3所示,该预设结构分词树包括多级节点,第一级节点为信息本身,第二级节点为分词短语(例如,名词短语、动词短语及断句符如“。”)。本实施例中,在各个信息对应的各个分词中,找出各个预设词性“例如,名词、动词等”的目标分词;根据信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语。第二级节点之后的每一级节点均是其上一级节点所对应的下一级分词或者分词短语,第三级节点为第二级节点的分词或者分词短语。如图3中所示,对该信息进行词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”,根据该信息中各个分词的分词顺序如从左至右的顺序来确定第二级节点,预先设定第二级节点为分词短语包括名词短语、动词短语等,该信息中从左至右,“我”为代词属于名词短语,因此“我”确定为第二级节点,排序在“我”之后的“去”、“操场”、“踢足球”可组成动词短语“去操场踢足球”,因此,可确定“去操场踢足球”为第二级节点。因此,该信息的预设结构分词树中第二级节点包括“我”、“去操场踢足球”。进一步地,第二级节点“我”不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。而作为第二级节点的动词短语“去操场踢足球”,可以进一步分词,则该第二级节点“去操场踢足球”的分词或者分词短语可作为第三级节点,该第三级节点包括动词“去”和名词短语“操场踢足球”,进一步地,名词短语“操场踢足球”还可以分为第四级节点“操场”、“踢足球”。若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性“例如,名词、动词等”的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。
基于构建的预设结构分词树,计算各个第一关键词性(例如,动词)分词与各个第二关键词性(例如,名词)分词的距离,将各个第一关键词性分词与各个第二关键词性分词之间相隔的节点数作为所述距离。其中,第一关键词性、第二关键词性可根据实际需要自定义设定,或根据该用户的历史搜索记录中核心信息通常对应的词性进行相应设置。分别找出与各个第一关键词性分词距离最近的第二关键词性分词,分别将各个第一关键词性分词与距离其最近的第二关键词性分词按照在该信息中的顺序组成对应的核心观点信息。如图3中的“去操场”、“去踢足球”作为挖掘出的该信息“我去操场踢足球”对应的核心观点信息。
本发明进一步提供一种信息挖掘方法。
参照图4,图4为本发明信息挖掘方法一实施例的流程示意图。
在一实施例中,该信息挖掘方法包括:
步骤S10,实时或者定时从预先确定的数据源获取特定类型的信息。例如,可通过网络爬虫等工具实时或者定时从预先确定的数据源(例如,各大新闻网站、论坛等)获取特定类型的信息(例如,新闻标题信息、索引信息、简介信息等)。
步骤S20,对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注。
对从数据源中获取到的特定类型的各个信息后,可对获取的各个信息进行分词处理。例如,可利用字符串匹配的分词方法对各个信息进行分词处理,如正向最大匹配法,把一个信息中的字符串从左至右来分词,即从左到右将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,反向最大匹配法,把一个信息中的字符串从右至左来分词,即从待分词的信息文本的末端开始匹配扫描,从右至左将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,最短路径分词法,一个信息中的字符串里面要求切出的词数是最少的;或者,双向最大匹配法,正反向同时进行分词匹配。还可利用词义分词法对各个信息进行分词处理,词义分词法是一种机器语音判断的分词方法,利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个信息进行分词处理,从当前用户的历史搜索记录或大众用户的历史搜索记录中,根据词组的统计,会统计有些两个相邻的字出现的频率较多,则可将这两个相邻的字作为词组来进行分词。
对获取的各个信息完成分词处理后,可对各个信息对应的各个分词(包括词组和单字)进行词性标注。例如,所述词性包括:实词—名词、动词、形容词、数量词、代词等;虚词—副词、介词、连词、助词、叹词、拟声词等。
步骤S30,根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树。
步骤S40,在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。
对各个信息对应的各个分词进行词性标注后,根据各个信息中各个分词的顺序以及各个分词标注的词性,将各个信息对应的各个分词构建成预设结构分词树。如可设置预设结构分词树中不同词性对应的节点级别,将一个信息中的各个分词作为不同节点,构建该信息对应的预设结构分词树;还可将不同词性的分词组成分词短语,以与各个分词形成不同的节点级别,构建该信息对应的预设结构分词树。在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。例如,可设置某一词性的分词为核心信息,或从历史搜索记录中统计确定出核心信息对应的词性的分词,将该词性设置为核心词性,则在该信息对应的预设结构分词树中找出属于核心词性,且在预设结构分词树中到主节点的节点距离最短的分词,作为该信息对应的核心观点信息。还可设置多个核心词性,在该信息对应的预设结构分词树中找出属于核心词性的多个分词,且找到预设结构分词树中属于核心词性的多个分词之间节点距离最短的分词组合,将该分词组合对应的信息作为该信息的核心观点信息。
本实施例对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。
进一步地,在其他实施例中,在根据该信息对应的预设结构分词树解析出该信息对应的核心观点信息之后,该方法还包括:
利用预先训练好的分类器识别出该信息的核心观点信息对应的分类标签;若识别出的分类标签属于预先确定的分类标签,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端。例如,若用户感兴趣的为体育类的信息,则可预先确定分类标签为“体育”,在解析出从数据源得到的信息中的核心观点信息之后,可进一步地识别出该信息的核心观点信息对应的分类标签,若识别出的分类标签属于“体育”类标签,则判断该信息为用户感兴趣的信息,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端如用户的手机、平板电脑等,从而实现目标信息的有效挖掘和精准推送。
进一步地,在其他实施例中,上述步骤S20中对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果。其中,所述第一匹配结果中包含有第一数量的第一词组,所述第二匹配结果中包含有第二数量的第二词组;所述第一匹配结果中包含有第三数量的单字,所述第二匹配结果中包含有第四数量的单字。
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则输出所述第一匹配结果(包括词组和单字);
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则输出所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则输出所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则输出所述第一匹配结果(包括词组和单字)。
本实施例中采用双向匹配法来对获取的各个信息进行分词处理,通过正反向同时进行分词匹配来分析各个信息待处理的字符串中前后组合内容的粘性,由于通常情况下词组能代表核心观点信息的概率更大,即通过词组更能表达出核心观点信息。因此,通过正反向同时进行分词匹配找出单字数量更少,词组数量更多的分词匹配结果,以作为信息的分词结果,从而提高分词及信息挖掘的准确性。
进一步地,在其他实施例中,上述步骤S20中对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系(例如,通用字词典库中,操场对应的词性是名词),及/或,预设的字和词分别与词性的映射关系(例如,预设的字和词分别与词性的映射关系中,操场对应的词性是常用名词),确定各个信息的各个分词对应的词性,并为各个信息的各个分词标注对应的词性。其中,预设的字和词分别与词性的映射关系的词性标注优先级高于通用字词典库中字和词分别与词性的映射关系。例如,若通用字词典库中操场对应的词性是名词,而预设的字和词分别与词性的映射关系中操场对应的词性是常用名词,则优先按照预设的字和词分别与词性的映射关系来标注,即对操场标注的词性为常用名词。
进一步地,在其他实施例中,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,上述步骤S30包括:
A1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;
A2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;具体地,可将后一个目标分词之前的字词作为前一个目标分词的分词短语;将最后一个目标分词及其之后的字词作为最后一个分词短语。
A3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;
A4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;
A5、重复执行上述步骤A3和A4,直到确定出各个节点分支的最后一级节点对应的分词。
上述步骤S40包括:
基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;
分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。
在一种具体实施方式中,如图3所示,图3为本发明信息挖掘方法一实施例中预设结构分词树的示意图。该信息为“我去操场踢足球”,对应的分词结果为“我去操场踢足球”,词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”。为该信息“我去操场踢足球”构建的预设结构分词树参见图3所示,该预设结构分词树包括多级节点,第一级节点为信息本身,第二级节点为分词短语(例如,名词短语、动词短语及断句符如“。”)。本实施例中,在各个信息对应的各个分词中,找出各个预设词性“例如,名词、动词等”的目标分词;根据信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语。第二级节点之后的每一级节点均是其上一级节点所对应的下一级分词或者分词短语,第三级节点为第二级节点的分词或者分词短语。如图3中所示,对该信息进行词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”,根据该信息中各个分词的分词顺序如从左至右的顺序来确定第二级节点,预先设定第二级节点为分词短语包括名词短语、动词短语等,该信息中从左至右,“我”为代词属于名词短语,因此“我”确定为第二级节点,排序在“我”之后的“去”、“操场”、“踢足球”可组成动词短语“去操场踢足球”,因此,可确定“去操场踢足球”为第二级节点。因此,该信息的预设结构分词树中第二级节点包括“我”、“去操场踢足球”。进一步地,第二级节点“我”不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。而作为第二级节点的动词短语“去操场踢足球”,可以进一步分词,则该第二级节点“去操场踢足球”的分词或者分词短语可作为第三级节点,该第三级节点包括动词“去”和名词短语“操场踢足球”,进一步地,名词短语“操场踢足球”还可以分为第四级节点“操场”、“踢足球”。若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性“例如,名词、动词等”的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。
基于构建的预设结构分词树,计算各个第一关键词性(例如,动词)分词与各个第二关键词性(例如,名词)分词的距离,将各个第一关键词性分词与各个第二关键词性分词之间相隔的节点数作为所述距离。其中,第一关键词性、第二关键词性可根据实际需要自定义设定,或根据该用户的历史搜索记录中核心信息通常对应的词性进行相应设置。分别找出与各个第一关键词性分词距离最近的第二关键词性分词,分别将各个第一关键词性分词与距离其最近的第二关键词性分词按照在该信息中的顺序组成对应的核心观点信息。如图3中的“去操场”、“去踢足球”作为挖掘出的该信息“我去操场踢足球”对应的核心观点信息。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有信息挖掘系统,所述信息挖掘系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的信息挖掘方法的步骤,该信息挖掘方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (7)
1.一种信息挖掘方法,其特征在于,所述方法包括以下步骤:
实时或者定时从预先确定的数据源获取特定类型的信息;
对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;
根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息;
所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:
A1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;
A2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;
A3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;
A4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;
A5、重复执行上述步骤A3和A4,直到确定出各个节点分支的最后一级节点对应的分词;
所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:
基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;
分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。
2.如权利要求1所述的信息挖掘方法,其特征在于,所述对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。
3.如权利要求1或2所述的信息挖掘方法,其特征在于,所述对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;
为各个信息的各个分词标注对应的词性。
4.一种电子装置,其特征在于,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息挖掘系统,所述信息挖掘系统被所述处理器执行时实现如下步骤:
实时或者定时从预先确定的数据源获取特定类型的信息;
对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;
根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息;
所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:
在各个信息对应的各个分词中,找出各个预设词性的目标分词;根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语,直到确定出各个节点分支的最后一级节点对应的分词;
所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:
基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。
5.如权利要求4所述的电子装置,其特征在于,所述对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。
6.如权利要求4或5所述的电子装置,其特征在于,所述对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;为各个信息的各个分词标注对应的词性。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有信息挖掘系统,所述信息挖掘系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-3中任一项所述的信息挖掘方法的步骤。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710313993.1A CN107220300B (zh) | 2017-05-05 | 2017-05-05 | 信息挖掘方法、电子装置及可读存储介质 |
KR1020187023709A KR102157202B1 (ko) | 2017-05-05 | 2017-06-30 | 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체 |
US16/084,564 US20200301919A1 (en) | 2017-05-05 | 2017-06-30 | Method and system of mining information, electronic device and readable storable medium |
PCT/CN2017/091360 WO2018201600A1 (zh) | 2017-05-05 | 2017-06-30 | 信息挖掘方法、系统、电子装置及可读存储介质 |
EP17899234.3A EP3425532A4 (en) | 2017-05-05 | 2017-06-30 | INFORMATION EXTRACTION SYSTEM AND METHOD, ELECTRONIC DEVICE, AND READABLE STORAGE MEDIUM |
JP2018537630A JP6687741B2 (ja) | 2017-05-05 | 2017-06-30 | 情報マイニング方法、システム、電子装置及び読み取り可能な記憶媒体 |
AU2017408800A AU2017408800B2 (en) | 2017-05-05 | 2017-06-30 | Method and system of mining information, electronic device and readable storable medium |
SG11201900261QA SG11201900261QA (en) | 2017-05-05 | 2017-06-30 | Method and system of mining information, electronic device and readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710313993.1A CN107220300B (zh) | 2017-05-05 | 2017-05-05 | 信息挖掘方法、电子装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220300A CN107220300A (zh) | 2017-09-29 |
CN107220300B true CN107220300B (zh) | 2018-07-20 |
Family
ID=59945172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710313993.1A Active CN107220300B (zh) | 2017-05-05 | 2017-05-05 | 信息挖掘方法、电子装置及可读存储介质 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20200301919A1 (zh) |
EP (1) | EP3425532A4 (zh) |
JP (1) | JP6687741B2 (zh) |
KR (1) | KR102157202B1 (zh) |
CN (1) | CN107220300B (zh) |
AU (1) | AU2017408800B2 (zh) |
SG (1) | SG11201900261QA (zh) |
WO (1) | WO2018201600A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569496B (zh) * | 2018-06-06 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN109253728A (zh) * | 2018-08-31 | 2019-01-22 | 平安科技(深圳)有限公司 | 语音导航方法、装置、计算机设备及存储介质 |
CN109753648B (zh) * | 2018-11-30 | 2022-12-20 | 平安科技(深圳)有限公司 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
CN109710946A (zh) * | 2019-01-15 | 2019-05-03 | 福州大学 | 一种基于依赖解析树的联合论辩挖掘系统及方法 |
CN110390101B (zh) * | 2019-07-22 | 2023-04-25 | 中新软件(上海)有限公司 | 实体合同备注的非标设计判断方法、装置及计算机设备 |
CN110971754B (zh) * | 2019-10-28 | 2022-09-27 | 深圳绿米联创科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN112668324B (zh) * | 2020-12-04 | 2023-12-08 | 北京达佳互联信息技术有限公司 | 语料数据处理方法、装置、电子设备及存储介质 |
CN113051913A (zh) * | 2021-04-09 | 2021-06-29 | 中译语通科技股份有限公司 | 藏文分词信息处理方法、系统、存储介质、终端及应用 |
CN113919329A (zh) * | 2021-09-26 | 2022-01-11 | 用友网络科技股份有限公司 | 识别方法、识别系统、电子设备和存储介质 |
CN114154502B (zh) * | 2022-02-09 | 2022-05-24 | 浙江太美医疗科技股份有限公司 | 医学文本的分词方法、装置、计算机设备和存储介质 |
CN116226362B (zh) * | 2023-05-06 | 2023-07-18 | 湖南德雅曼达科技有限公司 | 一种提升搜索医院名称准确度的分词方法 |
CN116227488B (zh) * | 2023-05-09 | 2023-07-04 | 北京拓普丰联信息科技股份有限公司 | 一种文本分词的方法、装置、电子设备及存储介质 |
CN117391076B (zh) * | 2023-12-11 | 2024-02-27 | 东亚银行(中国)有限公司 | 敏感数据的识别模型的获取方法、装置、电子设备及介质 |
CN117807190B (zh) * | 2024-02-28 | 2024-05-31 | 国网河南省电力公司经济技术研究院 | 一种能源大数据敏感数据智能化识别方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003517B1 (en) * | 2000-05-24 | 2006-02-21 | Inetprofit, Inc. | Web-based system and method for archiving and searching participant-based internet text sources for customer lead data |
JP2006031143A (ja) * | 2004-07-13 | 2006-02-02 | Fuji Xerox Co Ltd | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
CN101000764B (zh) * | 2006-12-18 | 2011-05-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
JP5224953B2 (ja) * | 2008-07-17 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、情報処理方法およびプログラム |
US8577924B2 (en) * | 2008-12-15 | 2013-11-05 | Raytheon Company | Determining base attributes for terms |
US9720903B2 (en) * | 2012-07-10 | 2017-08-01 | Robert D. New | Method for parsing natural language text with simple links |
CN104765724A (zh) * | 2012-10-23 | 2015-07-08 | 海信集团有限公司 | 一种分词方法及装置 |
CN103678564B (zh) * | 2013-12-09 | 2017-02-15 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN104050256B (zh) * | 2014-06-13 | 2017-05-24 | 西安蒜泥电子科技有限责任公司 | 基于主动学习的问答方法及采用该方法的问答系统 |
CN105224640B (zh) * | 2015-09-25 | 2019-12-31 | 杭州朗和科技有限公司 | 一种提取观点的方法和设备 |
CN106202285A (zh) * | 2016-06-30 | 2016-12-07 | 北京百度网讯科技有限公司 | 搜索结果展示方法和装置 |
CN106372232B (zh) * | 2016-09-09 | 2020-01-10 | 北京百度网讯科技有限公司 | 基于人工智能的信息挖掘方法和装置 |
CN106484676B (zh) * | 2016-09-30 | 2019-04-12 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
-
2017
- 2017-05-05 CN CN201710313993.1A patent/CN107220300B/zh active Active
- 2017-06-30 KR KR1020187023709A patent/KR102157202B1/ko active IP Right Grant
- 2017-06-30 SG SG11201900261QA patent/SG11201900261QA/en unknown
- 2017-06-30 WO PCT/CN2017/091360 patent/WO2018201600A1/zh active Application Filing
- 2017-06-30 EP EP17899234.3A patent/EP3425532A4/en not_active Ceased
- 2017-06-30 JP JP2018537630A patent/JP6687741B2/ja active Active
- 2017-06-30 AU AU2017408800A patent/AU2017408800B2/en active Active
- 2017-06-30 US US16/084,564 patent/US20200301919A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP6687741B2 (ja) | 2020-04-28 |
AU2017408800A1 (en) | 2018-11-22 |
EP3425532A1 (en) | 2019-01-09 |
CN107220300A (zh) | 2017-09-29 |
JP2019520616A (ja) | 2019-07-18 |
KR102157202B1 (ko) | 2020-09-18 |
EP3425532A4 (en) | 2019-02-13 |
SG11201900261QA (en) | 2019-02-27 |
WO2018201600A1 (zh) | 2018-11-08 |
AU2017408800B2 (en) | 2020-02-20 |
KR20190020643A (ko) | 2019-03-04 |
US20200301919A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220300B (zh) | 信息挖掘方法、电子装置及可读存储介质 | |
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN111967262B (zh) | 实体标签的确定方法和装置 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN107704503A (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN104008126A (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
CN102339294A (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN108304377A (zh) | 一种长尾词的提取方法及相关装置 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN117436437A (zh) | 一种组合敏感词检测方法、装置、设备及集群 | |
CN111984774A (zh) | 搜索方法、装置、设备以及存储介质 | |
CN106815215A (zh) | 生成标注库的方法和装置 | |
CN106372038A (zh) | 关键词的抽取方法及装置 | |
CN110232071A (zh) | 药品数据的检索方法、装置及存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |