CN111177319A - 风险事件的确定方法、装置、电子设备和存储介质 - Google Patents
风险事件的确定方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111177319A CN111177319A CN201911347550.XA CN201911347550A CN111177319A CN 111177319 A CN111177319 A CN 111177319A CN 201911347550 A CN201911347550 A CN 201911347550A CN 111177319 A CN111177319 A CN 111177319A
- Authority
- CN
- China
- Prior art keywords
- text
- core
- segment
- risk
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012216 screening Methods 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 18
- 238000013145 classification model Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000686 essence Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了风险事件的确定方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:构建目标文本的特征向量;根据所述特征向量,通过提取模型提取所述目标文本的核心文本,所述提取模型为预先训练;确定所述核心文本中的风险事件类型和风险主体;根据所述风险类型和所述风险主体,确定所述目标文本的风险事件。该实施方式能够解决通过人工阅读得出新闻文本中风险事件的方式,花费人工和时间成本较高的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种风险事件的确定方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的迅速发展,对各种信息进行舆情分析已经得到广泛应用,为了能够尽快了解新闻中的主要内容,及时掌握新闻文本中包括的风险事件,对新闻文本进行舆情分析也成为一种需求。
目前,对新闻文本舆情分析通常是,直接由人工阅读新闻文本,然后总结、记录得到新闻文本中的风险事件。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
但是,通过人工阅读得出新闻文本中风险事件的方式,需要具有一定专业知识的人员并阅读大量的新闻文本,才能保证准确性,所以这种方式花费的人工和时间成本较高。
发明内容
有鉴于此,本发明实施例提供一种风险事件的确定方法、装置、系统和存储介质,能够解决通过人工阅读得出新闻文本中风险事件的方式,花费人工和时间成本较高的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种风险事件的确定方法。
本发明实施例的一种风险事件的确定方法包括:构建目标文本的特征向量;根据所述特征向量,通过提取模型提取所述目标文本的核心文本,所述提取模型为预先训练;确定所述核心文本中的风险事件类型和风险主体;根据所述风险类型和所述风险主体,确定所述目标文本的风险事件。
在一个实施例中,所述构建目标文本的特征向量,包括:
对所述目标文本,按照预设标识切分,得到多个文本片段;
分别构建所述多个文本片段中每个文本片段的特征向量;
所述根据特征向量,通过提取模型提取所述目标文本的核心文本,包括:
根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本;
从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本。
在又一个实施例中,所述根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本,包括:
对于所述多个文本片段中的每个文本片段,执行如下过程:
将所述文本片段的特征向量输入所述提取模型,计算所述文本片段中每个字符为核心文本起始位置的概率和为核心文本结束位置的概率;
根据所述文本段中每个字符为核心文本起始位置的概率,确定所述文本片段中核心文本的起始字符;
根据所述文本段中每个字符为核心文本结束位置的概率,确定所述文本片段中核心文本的结束字符。
在又一个实施例中,所述从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本,包括:
对所述每个文本片段,计算所述起始字符为核心文本起始位置的概率和所述结束字符为核心文本结束位置的概率之和,作为核心文本概率;
根据所述每个文本片段的核心文本概率,筛选所述目标文本的核心文本。
在又一个实施例中,在所述构建目标文本的特征向量之前,还包括:
根据所述风险主体筛选所述目标文本,所述目标文本表示包括风险事件的文本。
为实现上述目的,根据本发明的另一方面,提供了一种风险事件的确定装置。
本发明的一种风险事件的确定装置包括:构建单元,用于构建目标文本的特征向量;提取单元,用于根据所述特征向量,通过提取模型提取所述目标文本的核心文本,所述提取模型为预先训练;确定单元,用于确定所述核心文本中的风险类型和风险主体;所述确定单元,还用于根据所述风险类型和所述风险主体,确定所述目标文本的风险事件。
在一个实施例中,所述构建单元,具体用于:
对所述目标文本,按照预设标识切分,得到多个文本片段;
分别构建所述多个文本片段中每个文本片段的特征向量;
所述提取单元,具体用于:
根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本;
从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本。
在又一个实施例中,所述提取单元,具体用于:
对于所述多个文本片段中的每个文本片段,执行如下过程:
将所述文本片段的特征向量输入所述提取模型,计算所述文本片段中每个字符为核心文本起始位置的概率和为核心文本结束位置的概率;
根据所述文本段中每个字符为核心文本起始位置的概率,确定所述文本片段中核心文本的起始字符;
根据所述文本段中每个字符为核心文本结束位置的概率,确定所述文本片段中核心文本的结束字符。
在又一个实施例中,所述提取单元,具体用于:
对所述每个文本片段,计算所述起始字符为核心文本起始位置的概率和所述结束字符为核心文本结束位置的概率之和,作为核心文本概率;
根据所述每个文本片段的核心文本概率,筛选所述目标文本的核心文本。
在又一个实施例中,所述装置还包括:
筛选单元,用于根据所述风险主体筛选所述目标文本,所述目标文本表示包括风险事件的文本。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的风险事件的确定方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的风险事件的确定方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例中,对目标文本,可以在构建出特征向量后输入提取模型,从而提取出目标文本中的核心文本,然后从核心文本中确定出风险事件类型和风险主体,从而确定出目标文本的风险事件。如此本发明实施例中,在确定新闻文本中风险事件时,可以通过提取新闻文本中的核心文本,进而基于核心文本确定出风险事件,从而不需要人工执行,避免花费人工成本,并且提高确定风险事件的效率,减少花费的时间。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的风险事件的确定方法的一种主要流程的示意图;
图2是根据本发明实施例的NER模型结构的一种示意图;
图3是根据本发明实施例的风险事件的确定方法的又一种主要流程的示意图;
图4是根据本发明实施例的构建特征向量的方法的一种流程示意图;
图5是根据本发明实施例的计算起始位置的方法的一种示意图;
图6是根据本发明实施例的计算结束位置的方法的一种示意图;
图7是根据本发明实施例的风险事件的确定装置的主要单元的示意图;
图8是本发明实施例可以应用于其中的又一种示例性系统架构图;
图9是适于用来实现本发明实施例的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。
本发明实施例中提供风险事件的确定方法,可以用于需要从文本中提取风险事件的场景。例如,对于新闻文本,为了准确把握新闻中关于各公司的负面事件报道,以便能够及时了解这些负面事件并作出应对,所以需要准确的确定出新闻文本中与各公司相关的负面事件,因此,可以将需要把握的负面报道确定为风险事件,通过本发明实施例提供的风险事件的确定方法,准确的确定出新闻文本中的风险事件。
本发明实施例,以确定新闻文本中与各公司负面报道相关的风险事件为例进行说明,则目标文本为新闻文本。
本发明实施例提供了一种风险事件的确定方法,该方法可由计算设备执行,如图1所示,该方法包括以下步骤。
S101:构建目标文本的特征向量。
其中,目标文本即为需要确定风险事件的文本。如确定新闻文本中风险事件的场景,目标文本为需要确定风险事件的新闻文本。
对于确定新闻文本中风险事件的场景,新闻文本数据量巨大且文本主题范围涵盖极为广泛,例如,可以涉及公司、股市、期货、评论等等各种主题,所有为提高确定风险事件的效率和准确率,可以先对新闻文本进行筛选,以筛选出包括风险事件的文本,再对筛选出的文本执行本步骤。
本发明实施例中,风险事件为与各公司相关的风险事件,所有包括风险事件的新闻文本通常与公司相关,则在本步骤之前,可以先对新闻文本进行“公司相关-公司不相关”二分类,筛选出与公司相关的新闻文本,即筛选出目标文本。
本发明实施例中,可以构建文本分类模型,以实现对新闻文本的“公司相关-公司不相关”的二分类,进而实现目标文本的筛选,此文本分类模型更注重召回率。具体的,文本分类模型可以使用BiLSTM(双向长短期记忆)结合Attention(注意力机制)模型的方式。BiLSTM在建模文本序列时能够同时考虑具体位置的前文和后文特征,注意力机制可以保证文本分类模型在做分类时能够自动为不同上下文分配合适权重。BiLSTM结合Attention的方式是经过实际检验的成熟模型。文本分类模型的输入和输入可以如表1所示。
表1
AA表示公司名称。如表1所示,第一个输入中的文本中报道了AA公司被开出反垄断新罚单,属于公司负面报道,所以其属于与公司相关的类型,即为目标文本。第二个输入中的文本中报道与公司不相关,所以其属于与公司不相关的类型,不是目标文本。
本发明实施例的一种实施方式中,新闻文本通常为一篇新闻报道,其通常包括一段话或几段话。为了降低后续提取核心文本过程计算的复杂度和模型训练的复杂度,可以将目标文本切分为多个文本片段,然后基于每个文本片段分别构建特征向量,然后执行后续步骤。
具体的,本步骤可以执行为:对目标文本,按照预设标识切分,得到多个文本片段;分别构建多个文本片段中每个文本片段的特征向量。其中,预设标识可以为句号,即对目标文本按照句号切分为多个文本片段,每个文本片段即为目标文本的一句话。
S102:根据特征向量,通过提取模型提取目标文本的核心文本。
其中,提取模型为预先训练。本步骤中将目标文本的特征向量输入到提取模型,进而基于提取模型计算的结果提取出目标文本的核心文本。
需要说明的是,新闻文本在报道某一新闻事件时,通常的行文方式是:首先使用一句或尽量少的句子简明扼要阐述当前发生事件,然后在后续断落中梳理该事件的前因后果。所以基于简明扼要阐述当前发生事件的文本,就可以确定出目标文本的风险事件,新闻文本中简明扼要阐述当前发生事件的文本可以作为目标文本的核心文本。本发明实施例可以假设新闻文本均具有以下特征:新闻文本中一定存在核心文本,核心文本出现在文本中的连续位置,即一篇文章不会出现多处核心文本。所以本发明实施例中,可以先确定出目标文本中的核心文本,然后基于核心文本来确定风险事件。在新闻文本中梳理该事件的前因后果时,有时会出现过往风险事件的描述,所以本发明实施例中通过提取出目标文本的核心文本后,在基于核心文本来确定风险事件,可以避免将新闻文本中出现的过往风险事件确定为新闻文本中的风险事件,从而提高确定风险事件的准确率。
本发明实施例的一种实施方式中,步骤S101中将目标文本切分为多个文本片段,并构建每个文本片段的特征向量,本步骤中可以根据每个文本片段的特征向量,通过提取模型提取每个文本片段的核心文本,然后从每个文本片段的核心文本中,筛选目标文本的核心文本。
将目标文本切分成多个文本片段后,可以基于提取模型对每个文本片段提取核心文本,然后从每个文本片段的核心文本中筛选出目标文本的核心文本。从而减少提取模型的计算量,以及模型训练的复杂程度。
S103:确定核心文本中的风险事件类型和风险主体。
本步骤中,从核心文本中确定风险事件类型和风险主体,而不需要从目标文本的全文中确定风险事件类型和风险主体,从而可以减少确定风险事件的复杂度和计算量。
本步骤为了确定风险事件类型,可以预先设置风险事件标签,每个风险事件标签可以对应一个风险事件类型,然后通过风险事件分类模型,确定出核心文本对应的风险事件标签,进而确定出核心文本对应的风险事件类型。风险事件分类模型可以为对文本的多分类模型,用于为输入的文本确定所属的风险事件标签。具体的,风险事件标签可以包括:经营事件、管理事、财务事件、行政处罚、项目事件、信用事件、其他风险事件。
本步骤中,通过风险事件分类模型可以确定出核心文本所属的风险事件标签,进而可以确定出风险事件类型。本发明实施例,针对核心文本确定其所属的风险事件标签,可以实现在细粒度确定目标文本所属风险事件的类型。本步骤通过构建一个文本多分类任务,从多个风险事件标签中为核心文本确定其所属的标签。
例如,假设核心文本为“近日,BB社援引三名知情人士消息称,继去年因阻扰CC其他供应商而被罚9.97亿欧元后,AA可能又将再次面临欧盟反垄断新罚单”,由其内容可知,其所属的风险事件标签为行政处罚和其他处罚,则在将上述核心文本输入训练完成的风险事件分类模型后,可以得出输出的结果为:行政处罚-其他处罚。
风险事件分类模型需要更多考虑文本语义信息,以准确的确定风险事件标签。本步骤中可以使用BERT+Dense(全连接网络结构)+softmax的模型来实现风险事件分类模型,并预先进行模型训练,以使其能够实现确定核心文本的风险事件标签。其中,BERT预训练模型能够在同时考虑上文及下文的前提下给出文本字符的全文语义向量表示;Dense及其后的softmax激活函数层用于得到类别的概率分布进而实现确定核心文本的风险事件标签。
本发明实施例中,为确定与各公司负面报道相关的风险事件,所以风险主体为公司名称。本步骤确定风险主体相当于文本中命名实体识别(NER,Named-entityrecognition)任务,可以通过构建NER模型实现从核心文本中自动定位风险主体(即从核心文本中找出风险事件对应的事件主体公司),实现风险主体的挖掘和确定。
本步骤中确定风险主体不同于文本公司名识别的NER任务,本步骤中只确定风险时间对应的公司名。新闻报道中的事件往往涉及不止一家公司,相比直接抽取全部公司名(一般实体),本步骤需要在核心文本中出现的多家公司名中准确确定风险主体,所以需要构造的NER模型具有上下文语境建模能力。
本步骤构造的NER模型可以为BERT+BiLSTM+CRF的模型,模型结构可以如图2所示。
在如图2所示模型结构中,BERT用于获取核心文本的嵌入矩阵,BiLSTM同时从前往后和从后向前建模文本上下文特征,该层输入为核心文本嵌入矩阵,输出为文本特征矩阵;Dense层使用全连接网络的非线性拟合能力对文本特征矩阵进行特征拟合及降维;Droupot层通过随机丢弃部分训练样本能够有效防止模型的过拟合;最后条件随机场(ConditionRandom Field,CRF)对输出结果进行概率修正,得到最终NER结果,即确定出风险主体。
例如,假设核心文本为“近日,BB社援引三名知情人士消息称,继去年因阻扰CC其他供应商而被罚9.97亿欧元后,AA可能又将再次面临欧盟反垄断新罚单”,由其内容可知,其中风险主体为AA,则在将上述核心文本输入训练完成的NER模型后,可以得出输出的结果为:AA。
在上述风险事件分类模型和NER模型训练阶段,可以以句号为分割符号把用于训练的完整文本按句子进行切分,每个句子作为一个样本标注对应风险事件标签(为风险事件分类模型的训练数据标签)和风险主体(为NER模型的训练数据标签),从而提高训练数据的利用率。同时,切分后的文本长度更小,减轻了模型训练的内存需求,降低了模型训练的硬件门槛。
在上述确定风险事件类型和风险主体的过程中,均使用了BERT嵌入于模型,并可以使用预训练后的中文BERT模型,其能够使用更少的训练数据得到更好的结果,所以本步骤使用BERT预训练模型能够有效降低本方法对训练数据的需求量。
例如,用于做训练数据的新闻文本的原始文本为“近日,BB援引三名知情人士消息称,继去年因阻扰CC其他供应商而被罚9.97亿欧元后,AA可能又将再次面临欧盟反垄断新罚单。据悉,欧盟正在对AA2009年到2011年间出售的3G芯片进行调查。”
将上述文本按照句号进行切分后,可以得出的文本片段,第一个文本片段为“近日,BB援引三名知情人士消息称,继去年因阻扰CC其他供应商而被罚9.97亿欧元后,AA可能又将再次面临欧盟反垄断新罚单”,第二个文本片段为“据悉,欧盟正在对AA2009年到2011年间出售的3G芯片进行调查”。则对第一个文本片段标注的风险事件标签为行政处罚、风险主体为AA;对第二个文本片段标注的风险事件标签为经营事件、风险主体为AA。如此通过上述标注后的文本片段,即可作为风险事件分类模型和NER模型的训练数据。
S104:根据风险类型和风险主体,确定目标文本的风险事件。
在步骤S103确定出风险类型和风险主体后,即可确定出目标文本的风险事件。
本发明实施例中,对目标文本,可以在构建出特征向量后输入提取模型,从而提取出目标文本中的核心文本,然后从核心文本中确定出风险事件类型和风险主体,从而确定出目标文本的风险事件。如此本发明实施例中,在确定新闻文本中风险事件时,可以通过提取新闻文本中的核心文本,进而基于核心文本确定出风险事件,从而不需要人工执行,避免花费人工成本,并且提高确定风险事件的效率,减少花费的时间。
本发明实施例,核心文本的提取需要综合考虑文本上下文语义信息,所以可以借鉴机器阅读理解(Machine Reading Comprehension)的框架,基于BERT预训练模型构建了核心文本的提取模型,来提取目标文本中的核心文本。
下面结合图1所示的实施例,对步骤S101和步骤S102的提取核心文本的过程进行具体说明,如图3所示,该方法包括以下步骤。
S301:对目标文本,按照预设标识切分,得到多个文本片段。
其中,以预设标识为句号为例,所以对目标文本可以按照句号切分,得到多个文本片段,每个文本片段为目标文本的一句话。
S302:分别构建多个文本片段中每个文本片段的特征向量。
其中,在得到多个文本片段后,对每个文本分片分别构建特征向量。
本发明实施例中,以一个文本片段为例,构建特征向量的过程可以如图4所示。文本均由文字序列组成,本步骤中可以将文本片段输入到BERT模型,借助BERT模型的字嵌入能力,可以把自然语言的字符转换为特定长度的向量,该向量物理含义为该字符的语义在自然语言语义空间中的位置,从而可以得出文本片段中每个字符对应的字向量。然后将字向量输入一个双向长短期记忆(LSTM)模型中,该LSTM模型能够对字嵌入得出的字向量进行修正,使得字向量能够考虑上下文语境,文本片段中各字符对应修正后的字向量即为文本片段的特征向量。
需要说明的是,如图4所示,在得出文本片段的特征向量后,可以将其输入到开始位置预测模型,得出文本片段的核心文本的起始位置的预测结果,然后将起始位置的预测结果和文本片段的特征向量共同输入结束位置预测模型,得出每个片段的核心文本的结束位置,即图4中所示终止位置,从而提取出文本片段的核心文本。
S303:根据每个文本片段的特征向量,通过提取模型提取每个文本片段的核心文本。
其中,根据文本片段的特征向量,提取模型可以计算出文本片段的核心文本的起始位置和结束位置,进而可以提取出核心文本。
提取模型输出的结果为概率,即可以计算出文本片段中每个字符是核心文本的起始位置的概率和是核心文本的结束位置的概率进而根据每个字符的起始位置的概率和结束位置的概率确定出核心文本。
具体的,对每个文本片段,本步骤可以执行为:将文本片段的特征向量输入提取模型,计算文本片段中每个字符为核心文本起始位置的概率和为核心文本结束位置的概率;根据文本段中每个字符为核心文本起始位置的概率,确定文本片段中核心文本的起始字符;根据文本段中每个字符为核心文本结束位置的概率,确定文本片段中核心文本的结束字符。
本发明实施例中,提取模型可以包括开始位置预测模型和结束位置预测模型,开始位置预测模型用于预测文本片段中每个字符为核心文本的起始位置的概率,结束位置预测模型用于预测文本片段中每个字符为核心文本的结束位置的概率。在得出每个字符为核心文本的起始位置的概率后,可以将起始位置的概率最大的字符作为核心文本的起始位置,从而确定文本片段中核心文本的起始字符;在得出每个字符为核心文本的结束位置的概率后,将结束位置的概率最大的字符作为核心文本的结束位置,从而确定文本片段中核心文本的结束字符。
本发明实施例中根据文本片段的特征向量计算起始位置的方式可以如图5所示。开始位置预测模块模型可以包括全连接网络层和softmax层,文本片段的特征向量输入全连接网络层和softmax层,可以每个字符为核心文本的起始位置的概率,最终得到一个长度为文本片段所包括字符数的概率向量,称为“初始概率向量”,将初始概率向量中最大值的元素对应的字符所在位置确定为核心文本的起始位置。
本发明实施例中根据文本片段的特征向量计算结束位置的方式可以如图6所示。结束位置预测模型可以包括全连接网络层和softmax层,本步骤中,可以将文本片段中每个字符的特征向量和初始概率相连拼接后输入结束位置预测模型,然后得到每个字符为核心文本的结束位置的概率,最终得到一个长度为文本片段所包括字符数的概率向量,称为“结束概率向量”,将结束概率向量中最大值的元素对应的字符所在位置确定为核心文本的结束位置。
需要说明的是,提取模型在训练时,模型的损失函数为开始位置预测损失和结束位置预测损失之和,如公式1所示。
在公式1中,pstart表示开始位置概率的分布,δpstart则表示开始位置概率的预测分布与真实分布之差的绝对值。pend表示结束位置概率的分布,δpend则表示结束位置概率的预测分布与真实分布之差的绝对值。通过最小化公式1所示损失函数,实现模型整体的拟合。
S304:从每个文本片段的核心文本中,筛选目标文本的核心文本。
在行每个文本片段中提取出核心文本后,可以得出每个核心为本的起始位置的起始字符为起始位置的概率,以及每个核心为本的结束位置的结束字符为结束位置的概率,从而对每个文本片段,计算起始位置的起始字符为核心文本起始位置的概率和结束位置的结束字符为核心文本结束位置的概率之和,作为核心文本概率。然后根据每个文本片段的核心文本概率,筛选目标文本的核心文本,具体的可以将核心文本概率最大的文本片段是核心文本,确定为目标文本的核心文本。
本发明实施例通过上述过程,即可提取出目标文本的核心文本。上述实现过程均可以通过提取模型实现,即提取模型可以输入为目标文本,输出为核心文本的起始位置和结束位置。例如,目标文本为“近日,BB援引三名知情人士消息称,继去年因阻扰CC其他供应商而被罚9.97亿欧元后,AA可能又将再次面临欧盟反垄断新罚单。据悉,欧盟正在对AA2009年到2011年间出售的3G芯片进行调查。”,输入提取模型后,输出的结果为:Start position=0、End position=76。Start position表示核心文本的起始位置,Start position=0表示核心文本的起始位置为目标为本的第0个字符。Start position表示核心文本的起始位置,End position=0表示核心文本的结束位置为目标为本的第62个字符。所以得出的结果为“近日,BB援引三名知情人士消息称,继去年因阻扰CC其他供应商而被罚9.97亿欧元后,AA可能又将再次面临欧盟反垄断新罚单。”
为了解决现有技术存在的问题,本发明实施例提供了一种风险事件的确定装置700,如图7所示,该装置700包括:
构建单元701,用于构建目标文本的特征向量;
提取单元702,用于根据所述特征向量,通过提取模型提取所述目标文本的核心文本,所述提取模型为预先训练;
确定单元703,用于确定所述核心文本中的风险类型和风险主体;
所述确定单元703,还用于根据所述风险类型和所述风险主体,确定所述目标文本的风险事件。
应理解的是,实施本发明实施例的方式与实施图1所示实施例的方式相同,在此不再赘述。
本发明实施例的一种实现方式中,所述构建单元701,具体用于:
对所述目标文本,按照预设标识切分,得到多个文本片段;
分别构建所述多个文本片段中每个文本片段的特征向量;
所述提取单元702,具体用于:
根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本;
从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本。
本发明实施例的又一种实现方式中,所述提取单元702,具体用于:
对于所述多个文本片段中的每个文本片段,执行如下过程:
将所述文本片段的特征向量输入所述提取模型,计算所述文本片段中每个字符为核心文本起始位置的概率和为核心文本结束位置的概率;
根据所述文本段中每个字符为核心文本起始位置的概率,确定所述文本片段中核心文本的起始字符;
根据所述文本段中每个字符为核心文本结束位置的概率,确定所述文本片段中核心文本的结束字符。
本发明实施例的又一种实现方式中,所述提取单元702,具体用于:
对所述每个文本片段,计算所述起始字符为核心文本起始位置的概率和所述结束字符为核心文本结束位置的概率之和,作为核心文本概率;
根据所述每个文本片段的核心文本概率,筛选所述目标文本的核心文本。
本发明实施例的又一种实现方式中,所述装置700还包括:
筛选单元,用于根据所述风险主体筛选所述目标文本,所述目标文本表示包括风险事件的文本。
应理解的是,实施本发明实施例的方式与实施图1或图3所示实施例的方式相同,在此不再赘述。
本发明实施例中,对目标文本,可以在构建出特征向量后输入提取模型,从而提取出目标文本中的核心文本,然后从核心文本中确定出风险事件类型和风险主体,从而确定出目标文本的风险事件。如此本发明实施例中,在确定新闻文本中风险事件时,可以通过提取新闻文本中的核心文本,进而基于核心文本确定出风险事件,从而不需要人工执行,避免花费人工成本,并且提高确定风险事件的效率,减少花费的时间。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例所提供的风险事件的确定方法。
图8示出了可以应用本发明实施例的风险事件的确定方法或风险事件的确定装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的风险事件的确定方法一般由服务器805执行,相应地,风险事件的确定装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的计算机系统900的结构示意图。图9示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括构建单元、提取单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,构建单元还可以被描述为“构建单元的功能的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行本发明所提供的风险事件的确定方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种风险事件的确定方法,其特征在于,包括:
构建目标文本的特征向量;
根据所述特征向量,通过提取模型提取所述目标文本的核心文本,所述提取模型为预先训练;
确定所述核心文本中的风险事件类型和风险主体;
根据所述风险类型和所述风险主体,确定所述目标文本的风险事件。
2.根据权利要求1所述的方法,其特征在于,所述构建目标文本的特征向量,包括:
对所述目标文本,按照预设标识切分,得到多个文本片段;
分别构建所述多个文本片段中每个文本片段的特征向量;
所述根据特征向量,通过提取模型提取所述目标文本的核心文本,包括:
根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本;
从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本,包括:
对于所述多个文本片段中的每个文本片段,执行如下过程:
将所述文本片段的特征向量输入所述提取模型,计算所述文本片段中每个字符为核心文本起始位置的概率和为核心文本结束位置的概率;
根据所述文本段中每个字符为核心文本起始位置的概率,确定所述文本片段中核心文本的起始字符;
根据所述文本段中每个字符为核心文本结束位置的概率,确定所述文本片段中核心文本的结束字符。
4.根据权利要求3所述的方法,其特征在于,所述从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本,包括:
对所述每个文本片段,计算所述起始字符为核心文本起始位置的概率和所述结束字符为核心文本结束位置的概率之和,作为核心文本概率;
根据所述每个文本片段的核心文本概率,筛选所述目标文本的核心文本。
5.根据权利要求1所述的方法,其特征在于,在所述构建目标文本的特征向量之前,还包括:
根据所述风险主体筛选所述目标文本,所述目标文本表示包括风险事件的文本。
6.一种风险事件的确定装置,其特征在于,包括:
构建单元,用于构建目标文本的特征向量;
提取单元,用于根据所述特征向量,通过提取模型提取所述目标文本的核心文本,所述提取模型为预先训练;
确定单元,用于确定所述核心文本中的风险类型和风险主体;
所述确定单元,还用于根据所述风险类型和所述风险主体,确定所述目标文本的风险事件。
7.根据权利要求6所述的装置,其特征在于,所述构建单元,具体用于:
对所述目标文本,按照预设标识切分,得到多个文本片段;
分别构建所述多个文本片段中每个文本片段的特征向量;
所述提取单元,具体用于:
根据所述每个文本片段的特征向量,通过提取模型提取所述每个文本片段的核心文本;
从所述每个文本片段的核心文本中,筛选所述目标文本的核心文本。
8.根据权利要求7所述的装置,其特征在于,所述提取单元,具体用于:
对于所述多个文本片段中的每个文本片段,执行如下过程:
将所述文本片段的特征向量输入所述提取模型,计算所述文本片段中每个字符为核心文本起始位置的概率和为核心文本结束位置的概率;
根据所述文本段中每个字符为核心文本起始位置的概率,确定所述文本片段中核心文本的起始字符;
根据所述文本段中每个字符为核心文本结束位置的概率,确定所述文本片段中核心文本的结束字符。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347550.XA CN111177319B (zh) | 2019-12-24 | 2019-12-24 | 风险事件的确定方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347550.XA CN111177319B (zh) | 2019-12-24 | 2019-12-24 | 风险事件的确定方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177319A true CN111177319A (zh) | 2020-05-19 |
CN111177319B CN111177319B (zh) | 2024-08-27 |
Family
ID=70655608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911347550.XA Active CN111177319B (zh) | 2019-12-24 | 2019-12-24 | 风险事件的确定方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177319B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598550A (zh) * | 2020-05-22 | 2020-08-28 | 深圳市小满科技有限公司 | 邮件签名信息提取方法、装置、电子设备及介质 |
CN111783420A (zh) * | 2020-06-19 | 2020-10-16 | 上海交通大学 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
CN112464670A (zh) * | 2021-02-03 | 2021-03-09 | 恒生电子股份有限公司 | 识别方法、识别模型的训练方法、装置、设备、存储介质 |
CN112579773A (zh) * | 2020-12-16 | 2021-03-30 | 中国建设银行股份有限公司 | 风险事件分级方法及装置 |
CN112651660A (zh) * | 2021-01-07 | 2021-04-13 | 量子数聚(北京)科技有限公司 | 企业风险预警方法及装置 |
CN113591467A (zh) * | 2021-08-06 | 2021-11-02 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质和程序 |
WO2022048194A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN114492439A (zh) * | 2021-12-27 | 2022-05-13 | 四川新网银行股份有限公司 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
CN115017894A (zh) * | 2022-05-30 | 2022-09-06 | 建信金融科技有限责任公司 | 一种舆情风险识别方法及装置 |
CN116340467A (zh) * | 2023-05-11 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110202537A1 (en) * | 2010-02-17 | 2011-08-18 | Yahoo! Inc. | System and method for using topic messages to understand media relating to an event |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN109582954A (zh) * | 2018-01-24 | 2019-04-05 | 广州数知科技有限公司 | 用于输出信息的方法和装置 |
CN109739975A (zh) * | 2018-11-15 | 2019-05-10 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN110162632A (zh) * | 2019-05-17 | 2019-08-23 | 北京百分点信息科技有限公司 | 一种新闻专题事件发现的方法 |
CN110334217A (zh) * | 2019-05-10 | 2019-10-15 | 科大讯飞股份有限公司 | 一种要素抽取方法、装置、设备及存储介质 |
-
2019
- 2019-12-24 CN CN201911347550.XA patent/CN111177319B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110202537A1 (en) * | 2010-02-17 | 2011-08-18 | Yahoo! Inc. | System and method for using topic messages to understand media relating to an event |
CN109582954A (zh) * | 2018-01-24 | 2019-04-05 | 广州数知科技有限公司 | 用于输出信息的方法和装置 |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN109739975A (zh) * | 2018-11-15 | 2019-05-10 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN110334217A (zh) * | 2019-05-10 | 2019-10-15 | 科大讯飞股份有限公司 | 一种要素抽取方法、装置、设备及存储介质 |
CN110162632A (zh) * | 2019-05-17 | 2019-08-23 | 北京百分点信息科技有限公司 | 一种新闻专题事件发现的方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598550A (zh) * | 2020-05-22 | 2020-08-28 | 深圳市小满科技有限公司 | 邮件签名信息提取方法、装置、电子设备及介质 |
CN111783420A (zh) * | 2020-06-19 | 2020-10-16 | 上海交通大学 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
WO2022048194A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳前海微众银行股份有限公司 | 事件主体识别模型优化方法、装置、设备及可读存储介质 |
CN112579773A (zh) * | 2020-12-16 | 2021-03-30 | 中国建设银行股份有限公司 | 风险事件分级方法及装置 |
CN112651660A (zh) * | 2021-01-07 | 2021-04-13 | 量子数聚(北京)科技有限公司 | 企业风险预警方法及装置 |
CN112464670A (zh) * | 2021-02-03 | 2021-03-09 | 恒生电子股份有限公司 | 识别方法、识别模型的训练方法、装置、设备、存储介质 |
CN113591467A (zh) * | 2021-08-06 | 2021-11-02 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质和程序 |
CN113591467B (zh) * | 2021-08-06 | 2023-11-03 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质 |
CN114492439A (zh) * | 2021-12-27 | 2022-05-13 | 四川新网银行股份有限公司 | 一种应用深度学习提升舆情预警准确率的系统和方法 |
CN115017894A (zh) * | 2022-05-30 | 2022-09-06 | 建信金融科技有限责任公司 | 一种舆情风险识别方法及装置 |
CN116340467A (zh) * | 2023-05-11 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN116340467B (zh) * | 2023-05-11 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111177319B (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177319B (zh) | 风险事件的确定方法、装置、电子设备和存储介质 | |
CN112507116B (zh) | 基于客户应答语料的客户画像方法及其相关设备 | |
CN111522958A (zh) | 文本分类方法和装置 | |
CN111210335B (zh) | 用户风险识别方法、装置及电子设备 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN112084334B (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
US11954173B2 (en) | Data processing method, electronic device and computer program product | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN112163072B (zh) | 基于多数据源的数据处理方法以及装置 | |
CN111783450B (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN114398477A (zh) | 基于知识图谱的政策推荐方法及其相关设备 | |
CN111368551A (zh) | 一种确定事件主体的方法和装置 | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN113239204A (zh) | 文本分类方法及装置、电子设备、计算机可读存储介质 | |
CN111861596A (zh) | 一种文本分类方法和装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN118193668A (zh) | 一种文本实体关系抽取的方法和装置 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
US20230004715A1 (en) | Method and apparatus for constructing object relationship network, and electronic device | |
CN114880520B (zh) | 视频标题生成方法、装置、电子设备和介质 | |
CN115238676B (zh) | 招标需求热点识别方法、装置、存储介质及电子设备 | |
US20230376537A1 (en) | Multi-chunk relationship extraction and maximization of query answer coherence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220927 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |