CN106528655A - 文本主题识别方法和装置 - Google Patents
文本主题识别方法和装置 Download PDFInfo
- Publication number
- CN106528655A CN106528655A CN201610906155.0A CN201610906155A CN106528655A CN 106528655 A CN106528655 A CN 106528655A CN 201610906155 A CN201610906155 A CN 201610906155A CN 106528655 A CN106528655 A CN 106528655A
- Authority
- CN
- China
- Prior art keywords
- text
- theme
- collected
- training data
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000001914 filtration Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 201000004384 Alopecia Diseases 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 208000024963 hair loss Diseases 0.000 description 4
- 230000003676 hair loss Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种文本主题识别方法和装置,该文本主题识别方法包括:获取待识别的文本;获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。该方法能够提高识别出的文本主题的准确度。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本主题识别方法和装置。
背景技术
随着互联网技术的蓬勃发展,互联网上的资源越来越多。目前的搜索引擎通常是基于关键词检索,将用户检索的查询词与文本的主题进行匹配,以检索到用户需要的文本。相关技术中,通过采用文本分词提取关键词的方式识别出文本主题,但是,这种方式识别出的文本主题的准确度不足。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种文本主题识别方法,该方法能够提高识别出的文本主题的准确度。
本申请的另一个目的在于提出一种文本主题识别装置。
为达到上述目的,本申请第一方面实施例提出的文本主题识别方法,包括:获取待识别的文本;获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。
本申请第一方面实施例提出的文本主题识别方法,通过根据文本主题识别模型进行文本主题识别,由于文本主题识别模型是根据训练数据进行训练后生成的,因此根据文本主题识别模型识别出的主题更准确。
为达到上述目的,本申请第二方面实施例提出的文本主题识别装置,包括:第一获取模块,用于获取待识别的文本;第二获取模块,用于获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;识别模块,用于根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。
本申请第二方面实施例提出的文本主题识别装置,通过根据文本主题识别模型进行文本主题识别,由于文本主题识别模型是根据训练数据进行训练后生成的,因此根据文本主题识别模型识别出的主题更准确。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的文本主题识别方法的流程示意图;
图2是本申请另一个实施例提出的文本主题识别方法的流程示意图;
图3是本申请一个实施例提出的文本主题识别装置的结构示意图;
图4是本申请另一个实施例提出的文本主题识别装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的文本主题识别方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:获取待识别的文本。
S12:获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题。
其中,可以预先获取训练数据,并根据训练数据采用机器学习算法训练生成文本主题识别模型,文本主题识别模型可以表明文本与主题之间的关系,以根据文本主题识别模型识别出文本的主题。
S13:根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。
进一步的,文本主题识别模型的输入和输出可以分别是文本的特征和文本的主题,此时,在获取到待识别的文本后,可以先对文本提取特征,再将提取出的特征作为文本主题识别模型的输入,从而得到的输出为该文本的主题,完成文本主题识别。
进一步的,识别出的主题可以包含在文本中也可以不包含在文本中,如文本是“头发越来越少”,则识别出的主题可以是“脱发”。
本实施例中,通过根据文本主题识别模型进行文本主题识别,由于文本主题识别模型是根据训练数据进行训练后生成的,因此根据文本主题识别模型识别出的主题更准确。
图2是本申请另一个实施例提出的文本主题识别方法的流程示意图。
如图2所示,本实施例的方法包括:
S21:收集大量文本,以及获取收集的文本的主题词。
其中,可以对收集的文本进行自动分析,分析文本中词对文本整体语义的重要性,将重要性较高的一个或多个词(具体数量可设置)作为文本的主题词,得到一批文本到主题的标注数据。另外,还可以通过人工标注,得到另一批文本到主题的标注数据。
进一步的,文本的主题可以包含在文本中,如“好的健身方法有哪些”对应的主题是“健身”;也有可能不在文本中,如“总是掉头发该怎么办”对应的主题是“脱发”。
S22:对获取的主题词进行过滤及聚类,生成主题的集合。
过滤是指过滤掉不合理和错误的主题词,如过滤掉切词得到的不完整的词。
在过滤后,对主题词进行聚类,将聚簇中最通用和概括的主题词作为本聚簇的主题,生成主题的集合。聚类依据的主题词之间的相关性,具体的聚类方法不限定。
S23:提取收集的文本的特征,将提取的特征及文本对应的主题作为训练数据。
文本的特征可以具体是指组成文本的每个字。
S24:对训练数据进行训练,生成文本主题识别模型。
在训练时,将文本的特征作为输入,使得经过模型输出的主题与文本的主题尽量相同。模型的网络结构可以采用深度神经网络(Deep Neural Network,DNN)或卷积神经网络(Convolutional Neural Network,CNN)等神经网络结构。
通过上述的S1-S24可以构建出文本主题识别模型,之后可以依据该模型对后续的任意文本进行主题识别。
S25:在需要进行主题识别时,对待识别的文本进行特征提取。
S26:根据提取的特征及已生成的文本主题识别模型对待识别的文本进行主题识别,确定待识别的文本的主题。
具体的,文本主题识别模型的输入是文本的特征,输出是文本对应的主题,因此,在需要对文本进行主题识别时,可以先提取该文本的特征(如该文本包含的字),再将提取的特征作为文本主题识别模型的输入,得到的输出即为该文本对应的主题。
在识别出文本的主题后,可以将其应用在不同的领域中,如应用在文本相关性计算、内容推荐、点击率预估等场景中。
本实施例中,通过根据文本主题识别模型进行文本主题识别,由于文本主题识别模型是根据训练数据进行训练后生成的,因此根据文本主题识别模型识别出的主题更准确。进一步的,通过自动分析和人工标注主题词,可以丰富训练数据量。进一步的,通过采用神经网络模型进行训练,可以提高模型的准确度,进而提高文本主题识别的准确度。
图3是本申请一个实施例提出的文本主题识别装置的结构示意图。
如图3所示,该装置30包括:第一获取模块31、第二获取模块32和识别模块33。
第一获取模块31,用于获取待识别的文本;
第二获取模块32,用于获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;
其中,可以预先获取训练数据,并根据训练数据采用机器学习算法训练生成文本主题识别模型,文本主题识别模型可以表明文本与主题之间的关系,以根据文本主题识别模型识别出文本的主题。
识别模块33,用于根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。
其中,识别出的主题可以包含在文本中也可以不包含在文本中,如文本是“头发越来越少”,则识别出的主题可以是“脱发”。
一些实施例中,参见图4,该装置30还包括:
提取模块34,用于提取所述文本的特征,以根据所述特征和所述文本主题识别模型,识别出所述文本的主题。
进一步的,文本主题识别模型的输入和输出可以分别是文本的特征和文本的主题,此时,在获取到待识别的文本后,可以先对文本提取特征,再将提取出的特征作为文本主题识别模型的输入,从而得到的输出为该文本的主题,完成文本主题识别。
一些实施例中,参见图4,该装置30还包括:
收集模块35,用于收集文本及获取收集的文本的主题词;
其中,可以对收集的文本进行自动分析,分析文本中词对文本整体语义的重要性,将重要性较高的一个或多个词(具体数量可设置)作为文本的主题词,得到一批文本到主题的标注数据。另外,还可以通过人工标注,得到另一批文本到主题的标注数据。
进一步的,文本的主题可以包含在文本中,如“好的健身方法有哪些”对应的主题是“健身”;也有可能不在文本中,如“总是掉头发该怎么办”对应的主题是“脱发”。
处理模块36,用于对获取的主题词进行过滤及聚类,生成主题的集合;
过滤是指过滤掉不合理和错误的主题词,如过滤掉切词得到的不完整的词。
在过滤后,对主题词进行聚类,将聚簇中最通用和概括的主题词作为本聚簇的主题,生成主题的集合。聚类依据的主题词之间的相关性,具体的聚类方法不限定。
确定模块37,用于提取收集的文本的特征,将提取的特征及文本对应的主题作为训练数据;
文本的特征可以具体是指组成文本的每个字。
训练模块38,用于对训练数据进行训练,生成文本主题识别模型。
在训练时,将文本的特征作为输入,使得经过模型输出的主题与文本的主题尽量相同。模型的网络结构可以采用深度神经网络(Deep Neural Network,DNN)或卷积神经网络(Convolutional Neural Network,CNN)等神经网络结构。
一些实施例中,所述收集模块35用于获取收集的文本的主题词包括:
对收集的文本进行自动分析,得到文本的主题词;或者,
对收集的文本进行人工标注,得到文本的主题词。
一些实施例中,所述训练模块38具体用于:
采用神经网络模型,对训练数据进行训练,生成文本主题识别模型。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过根据文本主题识别模型进行文本主题识别,由于文本主题识别模型是根据训练数据进行训练后生成的,因此根据文本主题识别模型识别出的主题更准确。进一步的,通过自动分析和人工标注主题词,可以丰富训练数据量。进一步的,通过采用神经网络模型进行训练,可以提高模型的准确度,进而提高文本主题识别的准确度。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种文本主题识别方法,其特征在于,包括:
获取待识别的文本;
获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;
根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别的文本之后,所述方法还包括:
提取所述文本的特征,以根据所述特征和所述文本主题识别模型,识别出所述文本的主题。
3.根据权利要求2所述的方法,其特征在于,还包括:
收集文本及获取收集的文本的主题词;
对获取的主题词进行过滤及聚类,生成主题的集合;
提取收集的文本的特征,将提取的特征及文本对应的主题作为训练数据;
对训练数据进行训练,生成文本主题识别模型。
4.根据权利要求3所述的方法,其特征在于,所述获取收集的文本的主题词包括:
对收集的文本进行自动分析,得到文本的主题词;或者,
对收集的文本进行人工标注,得到文本的主题词。
5.根据权利要求3所述的方法,其特征在于,所述对训练数据进行训练,生成文本主题识别模型,包括:
采用神经网络模型,对训练数据进行训练,生成文本主题识别模型。
6.一种文本主题识别装置,其特征在于,包括:
第一获取模块,用于获取待识别的文本;
第二获取模块,用于获取已生成的文本主题识别模型,所述文本主题识别模型是根据训练数据生成的,所述训练数据包括收集的文本的特征和收集的文本对应的主题;
识别模块,用于根据所述文本主题识别模型对所述文本进行主题识别,识别出所述文本的主题。
7.根据权利要求6所述的装置,其特征在于,还包括:
提取模块,用于提取所述文本的特征,以根据所述特征和所述文本主题识别模型,识别出所述文本的主题。
8.根据权利要求7所述的装置,其特征在于,还包括:
收集模块,用于收集文本及获取收集的文本的主题词;
处理模块,用于对获取的主题词进行过滤及聚类,生成主题的集合;
确定模块,用于提取收集的文本的特征,将提取的特征及文本对应的主题作为训练数据;
训练模块,用于对训练数据进行训练,生成文本主题识别模型。
9.根据权利要求8所述的装置,其特征在于,所述收集模块用于获取收集的文本的主题词包括:
对收集的文本进行自动分析,得到文本的主题词;或者,
对收集的文本进行人工标注,得到文本的主题词。
10.根据权利要求8所述的装置,其特征在于,所述训练模块具体用于:
采用神经网络模型,对训练数据进行训练,生成文本主题识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610906155.0A CN106528655A (zh) | 2016-10-18 | 2016-10-18 | 文本主题识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610906155.0A CN106528655A (zh) | 2016-10-18 | 2016-10-18 | 文本主题识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106528655A true CN106528655A (zh) | 2017-03-22 |
Family
ID=58332275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610906155.0A Pending CN106528655A (zh) | 2016-10-18 | 2016-10-18 | 文本主题识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528655A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108717519A (zh) * | 2018-04-03 | 2018-10-30 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN109871532A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置及存储介质 |
CN110245338A (zh) * | 2018-03-09 | 2019-09-17 | 北京国双科技有限公司 | 事实识别的校正方法及装置 |
CN110737770A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 文本数据敏感性识别方法、装置、电子设备及存储介质 |
CN110808019A (zh) * | 2019-10-31 | 2020-02-18 | 维沃移动通信有限公司 | 一种歌曲生成方法及电子设备 |
WO2021012485A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 文本主题抽取方法、装置及计算机可读存储介质 |
CN112765970A (zh) * | 2021-01-14 | 2021-05-07 | 深圳前海微众银行股份有限公司 | 文本主题确定方法、设备及可读存储介质 |
CN112863518A (zh) * | 2021-01-29 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN114925157A (zh) * | 2022-03-07 | 2022-08-19 | 武汉理工大学 | 一种基于预训练模型的核电站维修经验文本匹配方法 |
US12079580B2 (en) | 2020-11-30 | 2024-09-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Information extraction method, extraction model training method, apparatus and electronic device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556582A (zh) * | 2008-04-09 | 2009-10-14 | 上海复旦光华信息科技股份有限公司 | 论坛网民兴趣分析预测系统 |
CN103544210A (zh) * | 2013-09-02 | 2014-01-29 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
CN104951428A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN105045857A (zh) * | 2015-07-09 | 2015-11-11 | 中国科学院计算技术研究所 | 一种社交网络谣言识别方法及系统 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及系统 |
-
2016
- 2016-10-18 CN CN201610906155.0A patent/CN106528655A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556582A (zh) * | 2008-04-09 | 2009-10-14 | 上海复旦光华信息科技股份有限公司 | 论坛网民兴趣分析预测系统 |
CN103544210A (zh) * | 2013-09-02 | 2014-01-29 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
CN104951428A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN105045857A (zh) * | 2015-07-09 | 2015-11-11 | 中国科学院计算技术研究所 | 一种社交网络谣言识别方法及系统 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN110245338A (zh) * | 2018-03-09 | 2019-09-17 | 北京国双科技有限公司 | 事实识别的校正方法及装置 |
CN108717519B (zh) * | 2018-04-03 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN108717519A (zh) * | 2018-04-03 | 2018-10-30 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN110737770A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 文本数据敏感性识别方法、装置、电子设备及存储介质 |
CN110737770B (zh) * | 2018-07-03 | 2023-01-20 | 百度在线网络技术(北京)有限公司 | 文本数据敏感性识别方法、装置、电子设备及存储介质 |
CN109871532A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置及存储介质 |
WO2021012485A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 文本主题抽取方法、装置及计算机可读存储介质 |
CN110808019A (zh) * | 2019-10-31 | 2020-02-18 | 维沃移动通信有限公司 | 一种歌曲生成方法及电子设备 |
US12079580B2 (en) | 2020-11-30 | 2024-09-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Information extraction method, extraction model training method, apparatus and electronic device |
CN112765970A (zh) * | 2021-01-14 | 2021-05-07 | 深圳前海微众银行股份有限公司 | 文本主题确定方法、设备及可读存储介质 |
CN112863518A (zh) * | 2021-01-29 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN112863518B (zh) * | 2021-01-29 | 2024-01-09 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN114925157A (zh) * | 2022-03-07 | 2022-08-19 | 武汉理工大学 | 一种基于预训练模型的核电站维修经验文本匹配方法 |
CN114925157B (zh) * | 2022-03-07 | 2024-09-13 | 武汉理工大学 | 一种基于预训练模型的核电站维修经验文本匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528655A (zh) | 文本主题识别方法和装置 | |
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
CN107239564B (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN102456054B (zh) | 一种搜索方法及系统 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN106777236B (zh) | 基于深度问答的查询结果的展现方法和装置 | |
KR20210036184A (ko) | 사용자 취향정보 파악 방법 및 사용자 취향 정보에 기반한 아이템 추천 모듈 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN104915420B (zh) | 知识库数据处理方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN104035955B (zh) | 搜索方法和装置 | |
CN109697676B (zh) | 基于社交群的用户分析及应用方法和装置 | |
CN111324705B (zh) | 自适应性调整关联搜索词的系统及其方法 | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170322 |