CN111339250A - 新类别标签的挖掘方法及电子设备、计算机可读介质 - Google Patents
新类别标签的挖掘方法及电子设备、计算机可读介质 Download PDFInfo
- Publication number
- CN111339250A CN111339250A CN202010104207.9A CN202010104207A CN111339250A CN 111339250 A CN111339250 A CN 111339250A CN 202010104207 A CN202010104207 A CN 202010104207A CN 111339250 A CN111339250 A CN 111339250A
- Authority
- CN
- China
- Prior art keywords
- category
- search text
- category label
- preset
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000002372 labelling Methods 0.000 claims abstract description 38
- 230000002457 bidirectional effect Effects 0.000 claims description 37
- 238000003062 neural network model Methods 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 28
- 238000012216 screening Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 12
- 238000009412 basement excavation Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 10
- 230000000717 retained effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000209504 Poaceae Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种新类别标签的挖掘方法,涉及知识图谱技术领域,包括:获取当前预设时间段内的多个搜索文本;针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。本公开还提供了新类别标签的挖掘装置、电子设备及计算机可读介质。
Description
技术领域
本公开实施例涉及知识图谱技术领域,特别涉及新类别标签的挖掘方法及装置、电子设备、计算机可读介质。
背景技术
随着互联网的广泛使用,在搜索领域和场景中的搜索文本(Query)中,涌现出了越来越多的新的类别词,所谓类别词,是指表示一类人、事、物等实体的词,例如,博物馆、图书馆、蛋糕、花、草、树等;所谓新的类别词,即指未被现有的类别词库收录的类别词。
因此,从用户在搜索场景下输入的搜索文本(Query)中,识别和挖掘新的类别词,能够有效帮助搜索引擎理解用户搜索的真实意图和行为,对提高搜索结果的准确度而言非常重要。
发明内容
本公开实施例提供一种新类别标签的挖掘方法及装置、电子设备、计算机可读介质。
第一方面,本公开实施例提供一种新类别标签的挖掘方法,该新类别标签的挖掘方法包括:
获取当前预设时间段内的多个搜索文本;
针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;
去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。
在一些实施例中,所述挖掘方法还包括:
获取多个预先标注有类别标签的搜索文本样本;
将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。
在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;
检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;
当检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词;
重复执行所述检测当前待检测词的词性是否为预设词性的步骤,直至检测出词性为非预设词性的当前待检测词为止;
将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。
在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;
当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;
当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。
在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺;
当检测出该类别标签的语句通顺时,则保留该搜索文本当前对应的该类别标签;
当检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。
在一些实施例中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;
当该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;
当该频次小于预设频次阈值时,则去除该类别标签。
在一些实施例中,所述获取多个预先标注有类别标签的搜索文本样本,包括:
获取多个历史搜索文本和多个设定的类别标签;
利用远程监督方法,从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;
从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。
第二方面,本公开实施例提供一种新类别标签的挖掘装置,包括:
获取单元,用于获取当前预设时间段内的多个搜索文本;
标注单元,用于针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;
挖掘单元,用于去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。
在一些实施例中,还包括模型训练单元;
所述获取单元还用于获取多个预先标注有类别标签的搜索文本样本;
所述模型训练单元用于将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。
在一些实施例中,还包括词提取单元、词性检测单元和词扩展单元;
所述词提取单元用于针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;
所述词性检测单元用于检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;
所述词提取单元还用于在所述词性检测单元检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词,并触发所述词性检测单元重复执行检测当前待检测词的词性是否为预设词性的步骤,直至所述词性检测单元检测出词性为非预设词性的当前待检测词为止;
所述词扩展单元用于将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。
在一些实施例中,还包括筛选单元,所述筛选单元用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。
在一些实施例中,还包括通顺度检测单元和筛选单元;
所述通顺度检测单元用于针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺;
所述筛选单元用于在所述通顺度检测单元检测出该类别标签的语句通顺时,保留该搜索文本当前对应的该类别标签;在所述通顺度检测单元检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。
在一些实施例中,还包括频次检测单元和筛选单元;
所述频次检测单元用于针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;
所述筛选单元用于在该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;当该频次小于预设频次阈值时,则去除该类别标签。
在一些实施例中,所述获取单元具体用于获取多个历史搜索文本和多个设定的类别标签;利用远程监督方法,从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。
第三方面,本公开实施例提供一种电子设备,其包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述任一实施例所述的挖掘方法;
一个或多个I/O接口,连接在所述处理器与存储器之间,配置为实现所述处理器与所述存储器的信息交互。
第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被执行时实现前述任一实施例所述的挖掘方法。
本公开实施例提供的新类别标签的挖掘方法及装置、电子设备、计算机可读介质,利用预先训练好的序列标注模型,对当前预设时间段内的搜索文本(Query)进行类别标签的标注,并利用当前类别标签库对标注的类别标签进行查重,以挖掘出标注的类别标签中的新类别标签,从而实现了高时效性的新类别标签的挖掘。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种新类别标签的挖掘方法的流程图;
图2为本公开实施例中预设神经网络模型的组成框图;
图3为本公开实施例提供的另一种新类别标签的挖掘方法的流程图;
图4为图3中步骤101的一种具体实现方式的流程图;
图5为本公开实施例提供的又一种新类别标签的挖掘方法的流程图;
图6为本公开实施例提供的再一种新类别标签的挖掘方法的流程图;
图7为本公开实施例提供的再一种新类别标签的挖掘方法的流程图;
图8为本公开实施例提供的再一种新类别标签的挖掘方法的流程图;
图9为本公开实施例提供的一种新类别标签的挖掘装置的组成框图;
图10为本公开实施例提供的另一种新类别标签的挖掘装置的组成框图;
图11为本公开实施例提供的又一种新类别标签的挖掘装置的组成框图;
图12为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图;
图13为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图;
图14为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图;
图15为本公开实施例提供的一种电子设备的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,下面结合附图对本公开提供的新类别标签的挖掘方法及装置、电子设备、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。
如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
图1为本公开实施例提供的一种新类别标签的挖掘方法的流程图,如图1所示,该方法可以由新类别标签的挖掘装置来执行,该装置可以通过软件和/或硬件的方式实现,该装置可以集成在如服务器等电子设备中。该新类别标签的挖掘方法包括:
步骤11、获取当前预设时间段内的多个搜索文本。
在步骤11中,获取交互系统在当前预设时间段内接收到的多个搜索文本(Query)。其中,交互系统可以为能够为用户提供智能交互服务的智能终端、平台或应用,例如,智能音响、智能视频音箱、智能故事机、智能交互平台、智能交互应用、搜索引擎等。本公开实施例对于交互系统的实现方式不作特别限制,只要该交互系统能够与用户进行交互即可。
在本公开实施例中,前述“交互”可以包括语音交互(SpeechInteraction)和文字交互,其中,语音交互是基于语音识别、语音合成、自然语言理解等技术实现,在多种实际应用场景下,赋予交互系统“能听、会说、懂你”式的智能人机交互体验,语音交互适用于多个应用场景中,包括智能问答、智能播放、智能查找等场景。文字交互基于文字识别、提取、自然语言理解等技术实现,同样可以适用于多个前述的应用场景。
在本公开实施例中,搜索文本为文字信息。在前述任一种应用场景下,用户与交互系统进行交互时,可以向交互系统输入语音信息或文字信息,其中,文字信息是指自然语言类的文字。
在一些实施例中,搜索文本的获取方式可以是:当交互系统接收到的是语音信息时,可以获取该语音信息,并将该语音信息进行语音识别、语音转换文字等操作后,生成搜索文本;当交互系统接收到的是文字信息时,可以直接获取该文字信息,该文字信息即为搜索文本。
在本公开实施例中,预设时间段可以是小时级别的时间段、天级别的时间段、周级别的时间段或者月级别的时间段等,具体可以根据实际情况而定,本公开实施例对此不作限制。例如,预设时间段可以为1个小时、1天、1周或1个月等。可以理解的是,当前预设时间段是指最新的预设时间段,例如,预设时间段为1天,则当前预设时间段是指最新1天的时间段。
步骤12、针对每个搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签。
在本公开实施例中,类别标签是指搜索文本中包含的类别词,类别词是指表示一类人、事、物等实体的词,例如,博物馆、图书馆、蛋糕、花、草、树、车、手机等。
在本公开实施例中,预先训练出序列标注模型,该序列标注模型的输入为搜索文本,输出为搜索文本对应的类别标签。
在步骤12中,针对每个搜索文本,将该搜索文本输入预先训练好的序列标注模型时,序列标注模型输出的该搜索文本当前对应的类别标签的数量为至少一个,即每个搜索文本中存在的类别标签的数量可以为1个,也可以为多个。
在本公开实施例中,通过序列标注模型,可以标注出所有搜索文本当前对应的所有类别标签。其中,序列标注模型为基于深度学习的端到端(End to end)的序列标注模型,序列标注模型可以通过使用预先标注有类别标签的搜索文本样本基于预设的神经网络模型进行模型训练确定。图2为本公开实施例中预设神经网络模型的组成框图,如图2所示,预设的神经网络模型包括两个预训练的语义表示模型(第一语义表示模型、第二语义表示模型)、两个双向GRU(Bi-GRU)层(第一双向GRU层、第二双向GRU层)、条件随机场、以及条件随机场(CRF)解析层。其中,第一语义表示模型与第二语义表示模型连接,第一双向GRU层与第二语义表示模型连接,第二双向GRU层与第一双向GRU层连接,条件随机场与第二双向GRU层连接,条件随机场解析层与条件随机场连接。在一些实施例中,语义表示模型可以采用知识增强语义表示模型(Enhanced Representation from kNowledge IntEgration,简称:ERNIE)。
步骤13、去除所有搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为新类别标签。
在本公开实施例中,预设的当前类别标签库中存储有现有的已挖掘出的类别标签。在上述步骤12中,通过序列标注模型可以标注出当前预设时间段内的所有搜索文本当前对应的类别标签,而后,在步骤13中,利用当前类别标签库,对当前预设时间段内的所有搜索文本当前对应的类别标签进行查重。换言之,在步骤13中,针对序列标注模型输出的每个搜索文本当前对应的每个类别标签,判断该类别标签是否为现有的类别标签,当判断为现有的类别标签时,则进行去除处理,从而去除所有搜索文本当前对应的类别标签中已存在于当前类别标签库中的类别标签,进而挖掘出当前类别标签库中不存在的类别标签,即挖掘出新类别标签。
在本公开实施例中,在挖掘出新类别标签后,将新类别标签存储至当前类别标签库,以更新当前类别标签库,并获取下一预设时间段内的搜索文本,继续挖掘出新类别标签。
本公开实施例所提供的新类别标签的挖掘方法,利用预先训练好的基于深度学习的序列标注模型,对当前预设时间段内的搜索文本(Query)进行类别标签的标注,并利用当前类别标签库对标注的类别标签进行查重,以挖掘出标注的类别标签中的新类别标签,从而实现了高时效性的新类别标签的挖掘。
图3为本公开实施例提供的另一种新类别标签的挖掘方法的流程图,在一些实施例中,如图3所示,该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于:在步骤11之前,该挖掘方法还包括下述步骤101和步骤102,下面仅针对步骤101和步骤102进行描述,其他描述具体可参见前述任一实施例的描述。
步骤101、获取多个预先标注有类别标签的搜索文本样本。
图4为图3中步骤101的一种具体实现方式的流程图,如图4所示,在一些实施例中,步骤101包括:
步骤1011、获取多个历史搜索文本和多个设定的类别标签。
其中,历史搜索文本可以从前述交互系统的历史搜索日志中获取,设定的类别标签可以为现有的已挖掘出的类别标签。
步骤1012、利用远程监督方法,从所有历史搜索文本中筛选出所有包含设定的类别标签的历史搜索文本。
在步骤1012中,针对每个历史搜索文本,利用远程监督(Distant Supervision)方法,标注出该历史搜索文本中与多个设定的类别标签中的任一者完全匹配一致的词,即检测该历史搜索文本中是否包含多个设定的类别标签中的任一者。当检测出该历史搜索文本中包含多个设定的类别标签中的任一者时,则保留该历史搜索文本,否则去除该历史搜索文本,从而从所有历史搜索文本中筛选出所有包含多个设定的类别标签中的任一者的历史搜索文本。例如,假设多个历史搜索文本分别为文本A、文本B和文本C,多个设定的类别标签分别为a、b、c,则在步骤1012中,针对文本A,当文本A包含设定的类别标签a、b、c中的任一者时,则保留该文本A,否则去除该文本A,同理,当文本B包含设定的类别标签a、b、c中的一者时,则保留,当文本C包含设定的类别标签a、b、c中的任一者时,则保留,依此类推。
步骤1013、从所有包含设定的类别标签的历史搜索文本中确定出多个搜索文本样本。
具体地,在步骤1013中,对所有包含设定的类别标签的历史搜索文本进行句式和词性分析,以过滤掉存在低准确度句式、分词边界不一致等缺陷的历史搜索文本,并将剩余的历史搜索文本作为搜索文本样本。换言之,针对每个包含设定的类别标签的历史搜索文本,对该历史搜索文本进行句式和词性(Case)分析,当该历史搜索文本的句式的准确度较低或分词边界不一致时,则去除该历史搜索文本,否则保留,从而从所有包含设定的类别标签的历史搜索文本中确定出多个搜索文本样本。
在一些实施例中,可以采用依存句法分析(Dependency Parser,简称:depParser)工具对历史搜索文本进行句式分析,通过句式分析,可以分析出历史搜索文本中各个词之间的依存关系,从而确定历史搜索文本的句式的准确度,当历史搜索文本的句式的准确度低于预设准确度阈值时,则去除该历史搜索文本,否则保留该历史搜索文本。
在一些实施例中,可以采用预设的分词工具对历史搜索文本进行词性分析,识别历史搜索文本中每个词的词性,从而分析出历史搜索文本是否存在分词边界不一致的缺陷,若存在,则去除该历史搜索文本,否则保留该历史搜索文本。
在一些实施例中,基于历史搜索文本,通过上述方法,获取用于训练序列标注模型的搜索文本样本,利用这些搜索文本样本训练出的序列标注模型进行类别标签预测的准确率更高。
步骤102、将搜索文本样本作为预设神经网络模型的输入,将搜索文本样本的类别标签作为预设神经网络模型的输出,对预设神经网络模型进行模型训练,得到序列标注模型。
其中,如图2所示,预设神经网络模型包括两个预训练的语义表示模型(第一语义表示模型、第二语义表示模型)、两个双向GRU(Gated Recurrent Unit,门控循环单元)层(第一双向GRU层、第二双向GRU层)、条件随机场、以及条件随机场解析层。其中,第一语义表示模型与第二语义表示模型连接,第一双向GRU层与第二语义表示模型连接,第二双向GRU层与第一双向GRU层连接,条件随机场与第二双向GRU层连接,条件随机场解析层与条件随机场连接。
其中,语义表示模型为预先训练好的模型,例如,语义表示模型采用ERNIE模型,其输入为搜索文本样本,其输出为搜索文本样本中的每个字的字编码,其中,语义表示模型输出的每个字的字编码为768维的字向量序列。
双向GRU(Bi-GRU)层的输入为从语义表示模型输出的每个字的字编码,其输出为每个字的字编码和每个字的上下文信息,其中,每个字的上下文信息包括与该字相邻的字的字编码,双向GRU(Bi-GRU)层输出的每个字的字编码为512维。
条件随机场(CRF)的输入为双向GRU(Bi-GRU)层输出的每个字的字编码及其上下文信息,其输出为每个字所属的类别,字所属的类别包括“B”、“O”、“I”三种,B表示标注的类别词的开头,I表示标注的类别词的后续,O表示无关类,即非目标类别词,每个字所属的类别为1维。
条件随机场(CRF)解析层用于对条件随机场(CRF)输出的每个字所属的类别进行解码,最终映射得到每个字的最终类别(O/B/I)。
例如,假设一条搜索文本样本为“芝士蛋糕”,预先标注的该搜索文本样本的类别标签为“蛋糕”,将该搜索文本样本输入上述预设神经网络模型,则预设神经网络模型输出“OOBI”,由此,可以得到该预设神经网络模型输出的该搜索文本样本的类别标签为“蛋糕”。
在步骤102中,将每个搜索文本样本作为预设神经网络模型的输入,将每个搜索文本样本对应的类别标签作为预设神经网络模型的输出,对预设神经网络模型进行模型训练,从而得到序列标注模型。其中,在预设神经网络模型中,语义表示模型为预训练模型,其模型参数固定,而Bi-GRU层、CRF、CRF解析层的模型参数在初始时随机初始化,在模型训练过程中,主要对Bi-GRU层、CRF、CRF解析层的模型参数进行微调(Finetune),最终得到序列标注模型。
在本公开实施例中,序列标注模型基于大量的搜索文本样本和基于深度学习的神经网络模型训练得到,相比于传统的标注模型,无需进行繁琐的句法和词性的解析,也不会受到搜索文本Query中的句法的限制,有效提高了序列标注模型的标注效果,实现了高时效性的类别标签的标注和挖掘。
图5为本公开实施例提供的又一种新类别标签的挖掘方法的流程图,在一些实施例中,如图5所示,该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于:在步骤13之前,该挖掘方法还包括下述步骤1211至步骤1215,下面仅针对步骤1211至步骤1215进行描述,其他描述具体可参见前述任一实施例的描述。
步骤1211、针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词。
如前所述,在步骤12中,通过序列标注模型能够标注出每个搜索文本当前对应的类别标签,而在步骤1211中,针对每个搜索文本当前对应的每个类别标签,判断该类别标签是否已存在于当前类别标签库中,即判断该类别标签是否为现有的类别标签,若判断不存在于当前类别标签库中,则对该类别标签不作进一步处理,若判断已存在于当前类别标签库中,则进一步对该类别标签进行扩展,以挖掘出该搜索文本的更为准确的类别标签,具体地,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词。
例如,该搜索文本为“北京航空博物馆”,在上述步骤12中标注出该搜索文本的类别标签为“博物馆”,则在步骤1211中,当当前类别标签库中已存在“博物馆”的类别标签时,则从该搜索文本中提取出位于该类别标签即“博物馆”之前且与该类别标签相邻的词,即“航空”,将“航空”作为当前待检测词。
在一些实施例中,在步骤1211中,可以利用分词工具,例如词性标注(Lextag)工具,从该搜索文本中提取出位于该类别标签之前且相邻的词。
步骤1212、检测当前待检测词的词性是否为预设词性,若是,执行步骤1213,否则执行步骤1215。
其中,预设词性为名词(n)、形容词(a)、名形词(an)中的一者。
例如,该搜索文本为“北京航空博物馆”,在上述步骤12中标注出该搜索文本的类别标签为“博物馆”,在上述步骤1211中提取出的当前待检测词为“航空”,则在步骤1212中,检测“航空”的词性是否为预设词性,即检测“航空”的词性是否为名词(n)、形容词(a)、名形词(an)中的一者,显然,“航空”的词性为名词(n),因此跳转至步骤1213,以进一步扩展。
在一些实施例中,在步骤1212中,可以利用词性检测工具,例如Lextag工具,检测当前待检测词的词性是否为预设词性。
步骤1213、从该搜索文本中提取出位于当前待检测词之前且相邻的词,以作为当前待检测词。
例如,该搜索文本为“北京航空博物馆”,在上述步骤12中标注出该搜索文本的类别标签为“博物馆”,在上述步骤1211中提取出的当前待检测词为“航空”,则在步骤1212中,检测“航空”的词性为预设词性,即检测“航空”的词性为名词(n),则在步骤1213中,从该搜索文本中提取出位于当前待检测词即“航空”之前且相邻的词即“北京”,以作为当前待检测词,当前待检测词为“北京”。
在一些实施例中,在步骤1213中,可以利用分词工具,例如Lextag,从该搜索文本中提取出位于当前待检测词之前且相邻的词,以作为当前待检测词。
步骤1214、重复执行步骤1212,直至检测出词性为非预设词性的当前待检测词为止。
例如,该搜索文本为“北京航空博物馆”,在上述步骤1213中提取出的当前待检测词为“北京”,在步骤1214中,重复执行步骤1212,以检测该当前待检测词即“北京”的词性是否为预设词性,显然,“北京”的词性为地名(ns),不属于预设词性,因此,停止检测,并跳转至步骤1215。
步骤1215、将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。
例如,如前所述,该搜索文本为“北京航空博物馆”,通过上述步骤1211至步骤1214,只检测出“航空”一词为预设词性,因此,在步骤1215中,将该类别标签即“博物馆”和检测出的词性为预设词性的“航空”一词,按照“博物馆”和“航空”在该搜索文本中的顺序进行组合,并将组合结果即“航空博物馆”作为该搜索文本当前对应的类别标签。即将该搜索文本的类别标签从“博物馆”扩展为“航空博物馆”。
需要说明的是,若当前待检测词为位于该类别标签之前且相邻的词,且在步骤1212中,检测出当前待检测词为非预设词性时,则在步骤1215中,检测出的所有词性为预设词性的待检测词为空集,因此组合结果仍为该类别标签,即保持该搜索文本当前对应的类别标签不变。
在一些实施例中,在步骤13之前,针对通过步骤12标注出的每个类别标签,当该类别标签已存在于当前类别标签库中时,则通过上述步骤1211至步骤1215,以对该类别标签进行扩展,从而扩展出更为准确的类别标签;而当该类别标签已存在于当前类别标签库中时,或者通过上述步骤1211至步骤1215确定该类别标签已不能扩展时,则维持该类别标签不变。
在本公开实施例中,通过上述步骤1211至步骤1215,对序列标注模型输出的类别标签进行质量的监控,在保证高时效性的标注和挖掘的同时,能够有效提高类别标签的挖掘的准确性和召回率。
图6为本公开实施例提供的再一种新类别标签的挖掘方法的流程图,在一些实施例中,如图6所示,该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于:在步骤13之前,该挖掘方法还包括下述步骤1221,下面仅针对步骤1221进行描述,其他描述具体可参见前述任一实施例的描述。
步骤1221、针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾,若是则保留该类别标签,否则去除该类别标签。
在步骤1221中,首先,需要对该类别标签进行切词,具体可采用分词工具进行切词,在切词后,判断位于该类别标签的结尾的词是否与当前类别标签库中已存在的类别标签一致,即判断位于该类别标签的结尾的词是否已存在于当前类别标签库中,当判断出位于该类别标签的结尾的词已存在于当前类别标签库中时,则保留该搜索文本当前对应的该类别标签,否则,去除该类别标签。
在一些实施例中,上述步骤1221可以在上述步骤1215之后,且上述步骤13之前执行。在一些实施例中,上述步骤1221还可以在上述步骤12之后,且上述步骤1211之前执行。
可以理解的是,在一些实施例中,在步骤13中,所有所述搜索文本当前对应的类别标签即为经步骤1221、步骤1211至步骤1215这两种方式中的任一种或两种方式处理后,最终保留下的所有类别标签。
在本公开实施例中,通过上述步骤1221,对序列标注模型输出的类别标签进行质量的监控,在保证高时效性的标注和挖掘的同时,能够有效提高类别标签的挖掘的准确性和召回率。
图7为本公开实施例提供的再一种新类别标签的挖掘方法的流程图,在一些实施例中,如图7所示,该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于:在步骤13之前,该挖掘方法还包括下述步骤1231,下面仅针对步骤1231进行描述,其他描述具体可参见前述任一实施例的描述。
步骤1231、针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺,若是,则保留该类别标签,否则去除该类别标签。
在步骤1231中,针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句通顺度,当该类别标签的语句通顺度大于或等于预设通顺度阈值时,则检测出该类别标签的语句通顺,因此保留该类别标签;当该类别标签的语句通顺度小于预设通顺度阈值时则检测出该类别标签的语句不通顺,因此去除该类别标签。
在一些实施例中,通过上述步骤1231,可以从上述步骤12中标注出的所有类别标签中过滤掉语句不通顺的类别标签,以筛选出语句通顺的类别标签。
在一些实施例中,上述步骤1231可以在上述步骤12之后,且上述步骤1211之前执行;在一些实施例中,上述步骤1231也可以在上述步骤1215之后,且上述步骤13之前执行。在一些实施例中,上述步骤1221还可以在上述步骤1221之后或上述步骤1221之前执行。
可以理解的是,在一些实施例中,在步骤13中,所有所述搜索文本当前对应的类别标签即为经步骤1211至步骤1215、步骤1221、步骤1231这三种方式中的任一种或多种方式处理后,最终保留下的所有类别标签。
在本公开实施例中,通过上述步骤1231,对序列标注模型输出的类别标签进行质量的监控,在保证高时效性的标注和挖掘的同时,能够有效提高类别标签的挖掘的准确性和召回率。
图8为本公开实施例提供的再一种新类别标签的挖掘方法的流程图,在一些实施例中,如图8所示,该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于:在步骤13之前,该挖掘方法还包括下述步骤1241和步骤1242,下面仅针对步骤1241进行描述,其他描述具体可参见前述任一实施例的描述。
步骤1241、针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次。
步骤1242、判断该类别标签对应的频次是否小于预设频次阈值,若是,则去除该类别标签,否则保留该类别标签。
例如,预设频次阈值为5次,当前预设时间段为1天,则在步骤1242中,检测该类别标签在当前1天的时间段内的所有搜索文本的类别标签中出现的频次是否小于5次,若小于5次,则去除该类别标签,否则保留该类别标签。
在一些实施例中,通过上述步骤1241和步骤1242,可以将出现频次较低的类别标签进行过滤,从而筛选出频次较高的类别标签。
在一些实施例中,步骤1241和步骤1242可以在上述步骤12之后,且上述步骤1211之前执行;在一些实施例中,步骤1241和步骤1242也可以在上述步骤1215之后,且上述步骤13之前执行;在一些实施例中,步骤1241和步骤1242也可以在上述步骤1221之前或之后执行;在一些实施例中,步骤1241和步骤1242也可以在上述步骤1231之前或之后执行。
可以理解的是,在一些实施例中,在步骤13中,所有所述搜索文本当前对应的类别标签即为经步骤1211至步骤1215、步骤1221、步骤1231、步骤1241至步骤1242这四种方式中的任一种或多种方式处理后,最终保留下的所有类别标签。
在本公开实施例中,通过上述步骤1241至步骤1242,对序列标注模型输出的类别标签进行质量的监控,在保证高时效性的标注和挖掘的同时,能够有效提高类别标签的挖掘的准确性和召回率。
图9为本公开实施例提供的一种新类别标签的挖掘装置的组成框图,如图9所示,在本公开实施例中,该挖掘装置包括:获取单元201、标注单元202和挖掘单元203。
其中,获取单元201用于获取当前预设时间段内的多个搜索文本。
标注单元202用于针对每个搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签。
挖掘单元203用于去除所有搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为新类别标签。
图10为本公开实施例提供的另一种新类别标签的挖掘装置的组成框图,在一些实施例中,如图10所示,该挖掘装置还包括模型训练单元204。其中,获取单元201还用于获取多个预先标注有类别标签的搜索文本样本;模型训练单元204用于将搜索文本样本作为预设神经网络模型的输入,将搜索文本样本的类别标签作为预设神经网络模型的输出,对预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。
图11为本公开实施例提供的又一种新类别标签的挖掘装置的组成框图,在一些实施例中,如图11所示,该挖掘装置还包括词提取单元205、词性检测单元206和词扩展单元207。
其中,词提取单元205用于针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词。
词性检测单元206用于检测当前待检测词的词性是否为预设词性,预设词性为名词、形容词、名形词中的任一者。
词提取单元205还用于在词性检测单元206检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词,并触发词性检测单元206重复执行检测当前待检测词的词性是否为预设词性的步骤,直至词性检测单元206检测出词性为非预设词性的当前待检测词为止。
词扩展单元207用于将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。
图12为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图,在一些实施例中,如图12所示,该挖掘装置还包括筛选单元208,筛选单元208用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。
图13为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图,在一些实施例中,如图13所示,该挖掘装置还包括通顺度检测单元209,通顺度检测单元209用于针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺。筛选单元208还用于在通顺度检测单元209检测出该类别标签的语句通顺时,保留该搜索文本当前对应的类别标签;在通顺度检测单元209检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。
图14为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图,在一些实施例中,如图14所示,该挖掘装置还包括频次检测单元210,频次检测单元210用于针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;筛选单元208还用于在该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;当该频次小于预设频次阈值时,则去除该类别标签。
在一些实施例中,获取单元201具体用于获取多个历史搜索文本和多个设定的类别标签;利用远程监督方法,从所有历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;从所有包含设定的类别标签的历史搜索文本中确定出多个搜索文本样本。
此外,本公开实施例所提供的新类别标签的挖掘装置具体用于实现前述挖掘方法,具体可参见前述挖掘方法的描述,此处不再赘述。
图15为本公开实施例提供的一种电子设备的组成框图,如图11所示,该电子设备包括:
一个或多个处理器501;
存储器502,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任意一项的XXXXX的方法;
一个或多个I/O接口503,连接在处理器与存储器之间,配置为实现处理器与存储器的信息交互。
其中,处理器501为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器502为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)503连接在处理器501与存储器502间,能实现处理器501与存储器502的信息交互,其包括但不限于数据总线(Bus)等。
在一些实施例中,处理器501、存储器502和I/O接口503通过总线504相互连接,进而与计算设备800的其他组件连接。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被执行时实现前述的新类别标签的挖掘方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
Claims (16)
1.一种新类别标签的挖掘方法,包括:
获取当前预设时间段内的多个搜索文本;
针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;
去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。
2.根据权利要求1所述的挖掘方法,其中所述挖掘方法还包括:
获取多个预先标注有类别标签的搜索文本样本;
将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。
3.根据权利要求1所述的挖掘方法,其中所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;
检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;
当检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词;
重复执行所述检测当前待检测词的词性是否为预设词性的步骤,直至检测出词性为非预设词性的当前待检测词为止;
将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。
4.根据权利要求1所述的挖掘方法,其中所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;
当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;
当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。
5.根据权利要求1-4中任一所述的挖掘方法,其中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺;
当检测出该类别标签的语句通顺时,则保留该搜索文本当前对应的该类别标签;
当检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。
6.根据权利要求1-4中任一所述的挖掘方法,其中,所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签之前,还包括:
针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;
当该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;
当该频次小于预设频次阈值时,则去除该类别标签。
7.根据权利要求2所述的挖掘方法,其中所述获取多个预先标注有类别标签的搜索文本样本,包括:
获取多个历史搜索文本和多个设定的类别标签;
利用远程监督方法,从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;
从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。
8.一种新类别标签的挖掘装置,包括:
获取单元,用于获取当前预设时间段内的多个搜索文本;
标注单元,用于针对每个所述搜索文本,利用预先训练好的序列标注模型,对该搜索文本进行类别标签的标注,以从该搜索文本中提取出该搜索文本当前对应的类别标签;
挖掘单元,用于去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签,并将剩余的类别标签作为所述新类别标签。
9.根据权利要求8所述的挖掘装置,其中还包括模型训练单元;
所述获取单元还用于获取多个预先标注有类别标签的搜索文本样本;
所述模型训练单元用于将所述搜索文本样本作为预设神经网络模型的输入,将所述搜索文本样本的类别标签作为预设神经网络模型的输出,对所述预设神经网络模型进行模型训练,得到序列标注模型;其中,预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。
10.根据权利要求8所述的挖掘装置,其中还包括词提取单元、词性检测单元和词扩展单元;
所述词提取单元用于针对每个搜索文本当前对应的每个类别标签,当该类别标签已存在于预设的当前类别标签库中时,从该搜索文本中提取出位于该类别标签之前且相邻的词,以作为当前待检测词;
所述词性检测单元用于检测当前待检测词的词性是否为预设词性,所述预设词性为名词、形容词、名形词中的任一者;
所述词提取单元还用于在所述词性检测单元检测出当前待检测词的词性为预设词性时,从该搜索文本中提取出当前待检测词之前且相邻的词,以作为当前待检测词,并触发所述词性检测单元重复执行检测当前待检测词的词性是否为预设词性的步骤,直至所述词性检测单元检测出词性为非预设词性的当前待检测词为止;
所述词扩展单元用于将该类别标签和检测出的所有词性为预设词性的待检测词,按照在该搜索文本中的顺序进行组合,将组合结果作为该搜索文本当前对应的类别标签。
11.根据权利要求8所述的挖掘装置,其中还包括筛选单元,所述筛选单元用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签,判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾;当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时,保留该搜索文本当前对应的该类别标签;当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时,则去除该类别标签。
12.根据权利要求8-11中任一所述的挖掘装置,其中还包括通顺度检测单元和筛选单元;
所述通顺度检测单元用于针对每个搜索文本当前对应的每个类别标签,利用预设的语句通顺度模型检测该类别标签的语句是否通顺;
所述筛选单元用于在所述通顺度检测单元检测出该类别标签的语句通顺时,则保留该搜索文本当前对应的该类别标签;在所述通顺度检测单元检测出该搜索文本当前对应的类别标签的语句不通顺时,则去除该类别标签。
13.根据权利要求8-11中任一所述的挖掘装置,其中还包括频次检测单元和筛选单元;
所述频次检测单元用于针对每个搜索文本当前对应的每个类别标签,检测该类别标签在所有搜索文本对应的类别标签中出现的频次;
所述筛选单元用于在该频次大于或等于预设频次阈值时,则保留该搜索文本当前对应的该类别标签;当该频次小于预设频次阈值时,则去除该类别标签。
14.根据权利要求9所述的挖掘装置,其中所述获取单元具体用于获取多个历史搜索文本和多个设定的类别标签;利用远程监督方法,从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本;从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。
15.一种电子设备,其包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的挖掘方法;
一个或多个I/O接口,连接在所述处理器与存储器之间,配置为实现所述处理器与所述存储器的信息交互。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被执行时实现如权利要求1-7中任一所述的挖掘方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104207.9A CN111339250B (zh) | 2020-02-20 | 2020-02-20 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
EP21156285.5A EP3869360A1 (en) | 2020-02-20 | 2021-02-10 | New category tag mining method and device, electronic device and computer-readable medium |
US17/173,318 US11755654B2 (en) | 2020-02-20 | 2021-02-11 | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
KR1020210021383A KR102508769B1 (ko) | 2020-02-20 | 2021-02-17 | 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품 |
JP2021024436A JP7289330B2 (ja) | 2020-02-20 | 2021-02-18 | 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104207.9A CN111339250B (zh) | 2020-02-20 | 2020-02-20 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339250A true CN111339250A (zh) | 2020-06-26 |
CN111339250B CN111339250B (zh) | 2023-08-18 |
Family
ID=71181730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010104207.9A Active CN111339250B (zh) | 2020-02-20 | 2020-02-20 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11755654B2 (zh) |
EP (1) | EP3869360A1 (zh) |
JP (1) | JP7289330B2 (zh) |
KR (1) | KR102508769B1 (zh) |
CN (1) | CN111339250B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297379A (zh) * | 2021-05-25 | 2021-08-24 | 善诊(上海)信息技术有限公司 | 一种文本数据多标签分类方法及装置 |
EP3842961A3 (en) * | 2020-08-11 | 2021-09-22 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and apparatus for mining tag, device, storage medium and computer program product |
CN113656603A (zh) * | 2021-09-03 | 2021-11-16 | 北京爱奇艺科技有限公司 | 一种字段描述信息获得方法及装置 |
CN113869054A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN113869055A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 基于深度学习的电网项目特征属性识别方法 |
CN115033774A (zh) * | 2022-06-16 | 2022-09-09 | 北京百度网讯科技有限公司 | 待推荐的搜索文本的生成方法、装置、设备和介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022057202A (ja) * | 2020-09-30 | 2022-04-11 | 富士通株式会社 | プログラム,情報処理装置及び情報処理方法 |
US20220188575A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Crowdsourcing to filter out unpopular potential candidate answers |
CN115510330B (zh) * | 2022-11-01 | 2023-02-10 | 潍坊医学院附属医院 | 基于数据挖掘的信息智能处理方法及系统 |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062262A (ja) * | 2002-07-25 | 2004-02-26 | Hitachi Ltd | 未知語を自動的に辞書へ登録する方法 |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
JP2010176285A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
US20160042055A1 (en) * | 2013-08-02 | 2016-02-11 | Xiaomi Inc. | Method and device for establishing label library and searching for user |
CN105528403A (zh) * | 2015-12-02 | 2016-04-27 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
JP2016164724A (ja) * | 2015-03-06 | 2016-09-08 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107515849A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种成词判定模型生成方法、新词发现方法及装置 |
WO2018040762A1 (zh) * | 2016-08-30 | 2018-03-08 | 北京京东尚科信息技术有限公司 | 数据挖掘方法及装置 |
CN107992585A (zh) * | 2017-12-08 | 2018-05-04 | 北京百度网讯科技有限公司 | 通用标签挖掘方法、装置、服务器及介质 |
CN108009293A (zh) * | 2017-12-26 | 2018-05-08 | 北京百度网讯科技有限公司 | 视频标签生成方法、装置、计算机设备和存储介质 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、系统及存储介质 |
CN109492228A (zh) * | 2017-06-28 | 2019-03-19 | 三角兽(北京)科技有限公司 | 信息处理装置及其分词处理方法 |
CN109522424A (zh) * | 2018-10-16 | 2019-03-26 | 北京达佳互联信息技术有限公司 | 数据的处理方法、装置、电子设备及存储介质 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109857854A (zh) * | 2019-01-02 | 2019-06-07 | 新浪网技术(中国)有限公司 | 一种用户商业标签挖掘方法及装置、服务器 |
US20190179842A1 (en) * | 2017-12-11 | 2019-06-13 | Tata Consultancy Services Limited | Method and system for extraction of relevant sections from plurality of documents |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
CN110532390A (zh) * | 2019-08-26 | 2019-12-03 | 南京邮电大学 | 一种基于ner与复杂网络特征的新闻关键词提取方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284776A (ja) | 2004-03-30 | 2005-10-13 | Honda Motor Co Ltd | テキストマイニング装置及びテキスト分析方法 |
US9324082B2 (en) * | 2007-07-06 | 2016-04-26 | Ebay Inc. | System and method for providing information tagging in a networked system |
EP2107475A1 (en) * | 2008-03-31 | 2009-10-07 | British Telecommunications Public Limited Company | Electronic resource anotation |
EP2300946A1 (en) * | 2008-06-16 | 2011-03-30 | Jime Sa | A method for classifying information elements |
CN103810168A (zh) * | 2012-11-06 | 2014-05-21 | 深圳市世纪光速信息技术有限公司 | 检索应用的方法、装置及终端 |
CN108701118B (zh) | 2016-02-11 | 2022-06-24 | 电子湾有限公司 | 语义类别分类 |
US11250056B1 (en) * | 2016-09-26 | 2022-02-15 | Splunk Inc. | Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system |
US11269939B1 (en) * | 2016-09-26 | 2022-03-08 | Splunk Inc. | Iterative message-based data processing including streaming analytics |
US11294941B1 (en) * | 2016-09-26 | 2022-04-05 | Splunk Inc. | Message-based data ingestion to a data intake and query system |
CN107291828B (zh) * | 2017-05-27 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107256267B (zh) * | 2017-06-19 | 2020-07-24 | 北京百度网讯科技有限公司 | 查询方法和装置 |
CN107679908B (zh) * | 2017-09-28 | 2021-04-09 | 平安科技(深圳)有限公司 | 销售人员话题辅助查询方法、电子装置及存储介质 |
US11354349B1 (en) * | 2018-02-09 | 2022-06-07 | Pinterest, Inc. | Identifying content related to a visual search query |
CN109684645A (zh) | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
CN110717339B (zh) | 2019-12-12 | 2020-06-30 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-02-20 CN CN202010104207.9A patent/CN111339250B/zh active Active
-
2021
- 2021-02-10 EP EP21156285.5A patent/EP3869360A1/en not_active Ceased
- 2021-02-11 US US17/173,318 patent/US11755654B2/en active Active
- 2021-02-17 KR KR1020210021383A patent/KR102508769B1/ko active IP Right Grant
- 2021-02-18 JP JP2021024436A patent/JP7289330B2/ja active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062262A (ja) * | 2002-07-25 | 2004-02-26 | Hitachi Ltd | 未知語を自動的に辞書へ登録する方法 |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
JP2010176285A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
US20160042055A1 (en) * | 2013-08-02 | 2016-02-11 | Xiaomi Inc. | Method and device for establishing label library and searching for user |
JP2016164724A (ja) * | 2015-03-06 | 2016-09-08 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
CN105528403A (zh) * | 2015-12-02 | 2016-04-27 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
CN107515849A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种成词判定模型生成方法、新词发现方法及装置 |
WO2018040762A1 (zh) * | 2016-08-30 | 2018-03-08 | 北京京东尚科信息技术有限公司 | 数据挖掘方法及装置 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN109492228A (zh) * | 2017-06-28 | 2019-03-19 | 三角兽(北京)科技有限公司 | 信息处理装置及其分词处理方法 |
CN107992585A (zh) * | 2017-12-08 | 2018-05-04 | 北京百度网讯科技有限公司 | 通用标签挖掘方法、装置、服务器及介质 |
US20190179842A1 (en) * | 2017-12-11 | 2019-06-13 | Tata Consultancy Services Limited | Method and system for extraction of relevant sections from plurality of documents |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108009293A (zh) * | 2017-12-26 | 2018-05-08 | 北京百度网讯科技有限公司 | 视频标签生成方法、装置、计算机设备和存储介质 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、系统及存储介质 |
CN109522424A (zh) * | 2018-10-16 | 2019-03-26 | 北京达佳互联信息技术有限公司 | 数据的处理方法、装置、电子设备及存储介质 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109857854A (zh) * | 2019-01-02 | 2019-06-07 | 新浪网技术(中国)有限公司 | 一种用户商业标签挖掘方法及装置、服务器 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110532390A (zh) * | 2019-08-26 | 2019-12-03 | 南京邮电大学 | 一种基于ner与复杂网络特征的新闻关键词提取方法 |
Non-Patent Citations (2)
Title |
---|
XUAN WANG: "Distantly Supervised Biomedical Named Entity Recognition with Dictionary Expansion", 《 IEEE》 * |
XUAN WANG: "Distantly Supervised Biomedical Named Entity Recognition with Dictionary Expansion", 《 IEEE》, 31 December 2019 (2019-12-31) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3842961A3 (en) * | 2020-08-11 | 2021-09-22 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and apparatus for mining tag, device, storage medium and computer program product |
CN113297379A (zh) * | 2021-05-25 | 2021-08-24 | 善诊(上海)信息技术有限公司 | 一种文本数据多标签分类方法及装置 |
CN113656603A (zh) * | 2021-09-03 | 2021-11-16 | 北京爱奇艺科技有限公司 | 一种字段描述信息获得方法及装置 |
CN113656603B (zh) * | 2021-09-03 | 2024-06-04 | 北京爱奇艺科技有限公司 | 一种字段描述信息获得方法及装置 |
CN113869054A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN113869055A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 基于深度学习的电网项目特征属性识别方法 |
CN113869054B (zh) * | 2021-10-13 | 2024-07-26 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN115033774A (zh) * | 2022-06-16 | 2022-09-09 | 北京百度网讯科技有限公司 | 待推荐的搜索文本的生成方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
KR20210106372A (ko) | 2021-08-30 |
US20210263974A1 (en) | 2021-08-26 |
EP3869360A1 (en) | 2021-08-25 |
US11755654B2 (en) | 2023-09-12 |
KR102508769B1 (ko) | 2023-03-10 |
JP2021131862A (ja) | 2021-09-09 |
JP7289330B2 (ja) | 2023-06-09 |
CN111339250B (zh) | 2023-08-18 |
EP3869360A9 (en) | 2022-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339250B (zh) | 新类别标签的挖掘方法及电子设备、计算机可读介质 | |
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
JP6653334B2 (ja) | 情報抽出方法及び装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN113076720B (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN111414735B (zh) | 文本数据的生成方法和装置 | |
US11756301B2 (en) | System and method for automatically detecting and marking logical scenes in media content | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN115580758A (zh) | 视频内容生成方法及装置、电子设备、存储介质 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN111143642A (zh) | 网页分类方法、装置、电子设备及计算机可读存储介质 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
US11949971B2 (en) | System and method for automatically identifying key dialogues in a media | |
CN116524906A (zh) | 用于语音识别的训练数据生成方法、系统和电子设备 | |
CN106959945B (zh) | 基于人工智能的为新闻生成短标题的方法和装置 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN115099344A (zh) | 模型训练方法和装置、用户画像生成方法和装置、设备 | |
CN114625658A (zh) | App稳定性测试方法、装置、设备和计算机可读存储介质 | |
CN114416923A (zh) | 一种基于富文本特征的新闻实体链接方法和系统 | |
CN113516984A (zh) | 一种手语交互方法、系统、设备及存储介质 | |
CN117743267B (zh) | 数据推送方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |