CN112560445A - 一种市长热线热点诉求话题检测方法和装置 - Google Patents
一种市长热线热点诉求话题检测方法和装置 Download PDFInfo
- Publication number
- CN112560445A CN112560445A CN202011405266.6A CN202011405266A CN112560445A CN 112560445 A CN112560445 A CN 112560445A CN 202011405266 A CN202011405266 A CN 202011405266A CN 112560445 A CN112560445 A CN 112560445A
- Authority
- CN
- China
- Prior art keywords
- topic
- appeal
- distribution
- hot
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005065 mining Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种市长热线热点诉求话题检测方法和装置,其中方法包括步骤:通过正则校验去除文本中的非中文字符,然后对文本进行分词;对诉求进行话题聚类,检测出诉求中的热点话题;挖掘所有诉求话题热词,并定期更新话题热词;计算话题的热度值,并定期更新话题的热度值。本申请实施例提供的方法和装置实现了自动检测市长热线中热度诉求话题,通过定时计算话题的热度值,实现了话题的后续追踪。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种市长热线热点诉求话题检测方法和装置。
背景技术
随着互联网技术的高速发展,市长热线作为建立在群众一线的政府机构,是联结政府和人民群众的重要纽带。但是,随着市长热线的广泛运用,每天都有成千上万的诉求需要处理,目前,都是通过人工筛选过滤的模式对诉求进行处理,这种方法显然难以在短时间内收集当前的热点诉求。如何在政务大数据支撑下,利用政务大数据和人工智能技术,建立政务大数据集,并从数据集中挖掘诉求中热点诉求,并追踪诉求的后续发展,从而提高政府决策的前瞻性。目前市长热线主要存在以下几个方面的问题。第一,采用人工方式处理系统中的诉求,效率低。第二,不能实现对诉求话题的关注和后续追踪。
发明内容
本申请的目的在于提供一种市长热线热点诉求话题检测方法和装置,该方法实现了自动检测市长热线中热度诉求话题,通过定时计算话题的热度值,实现了话题的后续追踪。
第一方面,本申请实施例提供的一种市长热线热点诉求话题检测方法,包括步骤:通过正则校验去除文本中的非中文字符,然后对文本进行分词;对诉求进行话题聚类,检测出诉求中的热点话题;挖掘所有诉求话题热词,并定期更新话题热词;计算话题的热度值,并定期更新话题的热度值,实现对诉求话题的追踪。
一个可选的实施例中,所述通过正则校验去除文本中的非中文字符,然后对文本进行分词包括:通过正则表达式去除诉求文本数据中的非中文字符,包括但不限于:标点符号,表情符、数字、英文;通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除诉求文本数据中一些无意义的词。
一个可选的实施例中,通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括:从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i),通过α得到文档i的主题分布;从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j),从主题分布中得到词的主题;从狄利克雷分布β中取样生成主题 z(i,j)的词语分布φz(i,j)得到所述主题的词分布;从词语的多项式分布φz(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。
一个可选的实施例中,通过TF-IDF算法挖掘所有诉求话题热词,并按照所述热词的权重,选出权重最高的50个热词作为诉求的热词,并保存所述热词的权重,通过词云的方式展示。
一个可选的实施例中,通过如下公式计算话题的热度值:
其中,hotinit表示话题的初始热度,α*(n-1)表示话题诉求数量部分,其中α诉求数量影响因子,n话题中诉求的数量,表示热度随时间衰减,δ表示时间控制因子,t1表示当前时间,t0表示事件产生时间,单位为小时。
第二方面,本申请实施例还公开了一种装置,包括:
分词单元,用于通过正则校验去除文本中的非中文字符,然后对文本进行分词;
聚类单元,用于对诉求进行话题聚类,检测出诉求中的热点话题;
热词单元,用于挖掘所有诉求话题热词,并定期更新话题热词;
热度计算单元,用于计算话题的热度值,并定期更新话题的热度值。
一个可选的实施例中,所述分词单元具体地通过正则表达式去除诉求文本数据中的非中文字符,包括但不限于:标点符号,表情符、数字、英文;通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除诉求文本数据中一些无意义的词。
一个可选的实施例中,所述聚类单元通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括:从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i),通过α得到文档i的主题分布;从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j),从主题分布中得到词的主题;从狄利克雷分布β中取样生成主题z(i,j)的词语分布φz(i,j)得到所述主题的词分布;从词语的多项式分布φz(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。
一个可选的实施例中,所述热度计算单元通过如下公式计算话题的热度值:
其中,hotinit表示话题的初始热度,α*(n-1)表示话题诉求数量部分,其中α诉求数量影响因子,n话题中诉求的数量,表示热度随时间衰减,δ表示时间控制因子,t1表示当前时间,t0表示事件产生时间,单位为小时。
第三方面,本申请实施例还提供了一种电子装置,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述装置执行如第一方面中任一项所述的方法。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以用这些附图获得其他的附图。
图1是本申请实施例提供的一种市长热线热点诉求话题检测方法流程图;
图2是LDA模型的结构图;
图3是市长热线热点诉求话题;
图4是市长热线诉求热词;
图5是本申请实施例提供的一种市长热线热点诉求话题检测装置示意图;
图6是本申请实施例提供的一种电子设备硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的识别证件的方法一种自动的市长热线热点诉求话题检测方法,实现了自动检测热点诉求话题,和诉求话题的后续追踪。首先,通过自然语言处理技术对数据进行预处理和对诉求进行话题聚类,自动检测海量诉求中的热点诉求话题。其次,计算出诉求话题的热度值,实现对诉求话题的追踪。
如图1所示,图1是本申请实施例提供的一种市长热线热点诉求话题检测方法流程图,包括以下步骤:
步骤101:通过正则校验去除文本中的非中文字符,然后对文本进行分词。
本步骤中,通过正则表达式去除诉求文本数据中的非中文字符,包括但不限于:标点符号,表情符、数字、英文。接着,通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除诉求文本数据中一些无意义的词。
步骤102:对诉求进行话题聚类,检测出诉求中的热点话题。
本步骤中,以通过潜在狄利克雷分布模型对诉求进行话题聚类为例说明。 LDA模型的结构图如图2所示,其中,K表示主体个数,N表示文档中词的个数, M表示文档个数,α表示文档的先验超参数,β表示词的先验超参数,表示主题k的词分布,θ(i)表示文档i的主题分布,第i个文档j个词的主题,w(i,j) 表示在第i个文档中j个词的分布。从狄利克雷分布α中取样生成诉求文档i 的主题分布θ(i),通过α得到文档i的主题分布;从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j),从主题分布中得到词的主题;从狄利克雷分布β中取样生成主题z(i,j)的词语分布φz(i,j)得到所述主题的词分布;从词语的多项式分布φz(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。
步骤103:挖掘所有诉求话题热词,并定期更新话题热词。
本步骤中,通过TF-IDF算法挖掘所有诉求话题热词,并按照所述热词的权重,选出权重最高的50个热词作为诉求的热词,并保存所述热词的权重,通过词云的方式展示。TF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。
步骤104:计算话题的热度值,并定期更新话题的热度值,实现对诉求话题的追踪。
本步骤中,通过如下公式计算话题的热度值:
其中,hotinit表示话题的初始热度,α*(n-1)表示话题诉求数量部分,其中α诉求数量影响因子,n话题中诉求的数量,表示热度随时间衰减,δ表示时间控制因子,t1表示当前时间,t0表示事件产生时间,单位为小时。
本申请提供的方法应用在某地市长热线,图3是该市热点诉求话题,行政服务人员可以通过该列表观察当前的市民热点诉求话题。图4是该市诉求热词,行政服务人员可以通过了解市民的热点诉求关键词。实践表明,通过自动的市长热线热点诉求话题检测方法,帮助行政服务人员在海量的实名诉求中自动挖掘诉求中热点诉求,并追踪诉求的后续发展,从而提高政府决策的前瞻性,提高政府决策效率,提升政府社会治理能力。
如图5所示,本申请实施例还公开了一种用于市长热线热点诉求话题检测的装置,该装置包括:
分词单元501,用于通过正则校验去除文本中的非中文字符,然后对文本进行分词。
聚类单元502,用于对诉求进行话题聚类,检测出诉求中的热点话题。
热词单元503,用于挖掘所有诉求话题热词,并定期更新话题热词。
热度计算单元504,用于计算话题的热度值,并定期更新话题的热度值。
具体地,分词单元501通过正则表达式去除诉求文本数据中的非中文字符,包括但不限于:标点符号,表情符、数字、英文;通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除诉求文本数据中一些无意义的词。
具体地,聚类单元502通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括:从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i),通过α得到文档i的主题分布;从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j),从主题分布中得到词的主题;从狄利克雷分布β中取样生成主题 z(i,j)的词语分布φz(i,j)得到所述主题的词分布;从词语的多项式分布φz(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。
具体地,热词单元503通过TF-IDF算法挖掘所有诉求话题热词,并按照所述热词的权重,选出权重最高的50个热词作为诉求的热词,并保存所述热词的权重,通过词云的方式展示。
具体地,热度计算单元504通过如下公式计算话题的热度值:
其中,hotinit表示话题的初始热度,α*(n-1)表示话题诉求数量部分,其中α诉求数量影响因子,n话题中诉求的数量,表示热度随时间衰减,δ表示时间控制因子,t1表示当前时间,t0表示事件产生时间,单位为小时。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器610、存储器620、输入/输出接口630、通信接口640和总线650。其中处理器610、存储器620、输入/输出接口630和通信接口640通过总线650实现彼此之间在设备内部的通信连接。
处理器610可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit, ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口630用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口640用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线650包括一通路,在设备的各个组件(例如处理器610、存储器620、输入/输出接口630和通信接口640)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、存储器620、输入/输出接口630、通信接口640以及总线650,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种市长热线热点诉求话题检测方法,其特征在于,包括:
通过正则校验去除文本中的非中文字符,然后对文本进行分词;
对诉求进行话题聚类,检测出诉求中的热点话题;
挖掘所有诉求话题热词,并定期更新话题热词;
计算话题的热度值,并定期更新话题的热度值。
2.根据权利要求1所述的方法,其特征在于,所述通过正则校验去除文本中的非中文字符,然后对文本进行分词包括:
通过正则表达式去除诉求文本数据中的非中文字符,包括但不限于:标点符号,表情符、数字、英文;
通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除诉求文本数据中一些无意义的词。
3.根据权利要求1所述的方法,其特征在于,通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括:
从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i),通过α得到文档i的主题分布;
从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j),从主题分布中得到词的主题;
从狄利克雷分布β中取样生成主题z(i,j)的词语分布φz(i,j)得到所述主题的词分布;
从词语的多项式分布φz(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。
4.根据权利要求1所述的方法,其特征在于,通过TF-IDF算法挖掘所有诉求话题热词,并按照所述热词的权重,选出权重最高的50个热词作为诉求的热词,并保存所述热词的权重,通过词云的方式展示。
6.一种装置,其特征在于,包括:
分词单元,用于通过正则校验去除文本中的非中文字符,然后对文本进行分词;
聚类单元,用于对诉求进行话题聚类,检测出诉求中的热点话题;
热词单元,用于挖掘所有诉求话题热词,并定期更新话题热词;
热度计算单元,用于计算话题的热度值,并定期更新话题的热度值。
7.根据权利要求6所述的装置,其特征在于,所述分词单元具体地通过正则表达式去除诉求文本数据中的非中文字符,包括但不限于:标点符号,表情符、数字、英文;通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除诉求文本数据中一些无意义的词。
8.根据权利要求6所述的装置,其特征在于,所述聚类单元通过潜在狄利克雷分布模型对诉求进行话题聚类,具体包括:
从狄利克雷分布α中取样生成诉求文档i的主题分布θ(i),通过α得到文档i的主题分布;
从主题的多项式分布θ(i)中取样生成诉求文档i第j个词的主题z(i,j),从主题分布中得到词的主题;
从狄利克雷分布β中取样生成主题z(i,j)的词语分布φz(i,j)得到所述主题的词分布;
从词语的多项式分布φz(i,j)中采样最终生成词语w(i,j)根据所述的词分布得到词。
10.一种电子装置,其特征在于,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述装置执行如权利要求1-5中任一项所述的市长热线热点诉求话题检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011405266.6A CN112560445A (zh) | 2020-12-05 | 2020-12-05 | 一种市长热线热点诉求话题检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011405266.6A CN112560445A (zh) | 2020-12-05 | 2020-12-05 | 一种市长热线热点诉求话题检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112560445A true CN112560445A (zh) | 2021-03-26 |
Family
ID=75048584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011405266.6A Pending CN112560445A (zh) | 2020-12-05 | 2020-12-05 | 一种市长热线热点诉求话题检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560445A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860906A (zh) * | 2021-04-23 | 2021-05-28 | 南京汇宁桀信息科技有限公司 | 基于自然语言处理的市长热线舆情决策支持方法及系统 |
CN115858787A (zh) * | 2022-12-12 | 2023-03-28 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN110188265A (zh) * | 2019-04-26 | 2019-08-30 | 中国科学院计算技术研究所 | 一种融合用户画像的网络舆情热点推荐方法及系统 |
-
2020
- 2020-12-05 CN CN202011405266.6A patent/CN112560445A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170692A (zh) * | 2016-12-07 | 2018-06-15 | 腾讯科技(深圳)有限公司 | 一种热点事件信息处理方法和装置 |
CN110188265A (zh) * | 2019-04-26 | 2019-08-30 | 中国科学院计算技术研究所 | 一种融合用户画像的网络舆情热点推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
冯兆旭: "面向网络舆情分析的社会热点话题技术研究", 中国优秀硕士学位论文全文数据库, 15 February 2018 (2018-02-15), pages 1 - 58 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860906A (zh) * | 2021-04-23 | 2021-05-28 | 南京汇宁桀信息科技有限公司 | 基于自然语言处理的市长热线舆情决策支持方法及系统 |
CN112860906B (zh) * | 2021-04-23 | 2021-07-16 | 南京汇宁桀信息科技有限公司 | 基于自然语言处理的市长热线舆情决策支持方法及系统 |
CN115858787A (zh) * | 2022-12-12 | 2023-03-28 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6661790B2 (ja) | テキストタイプを識別する方法、装置及びデバイス | |
CN102215300B (zh) | 电信业务推荐方法和系统 | |
US9787838B1 (en) | System and method for analysis of interactions with a customer service center | |
CN112771564A (zh) | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 | |
JP2019519019A5 (zh) | ||
JP6776310B2 (ja) | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN107894994A (zh) | 一种检测热点话题类别的方法和装置 | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
CN110275962B (zh) | 用于输出信息的方法和装置 | |
CN112560445A (zh) | 一种市长热线热点诉求话题检测方法和装置 | |
CN108763961B (zh) | 一种基于大数据的隐私数据分级方法和装置 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
JP2013077056A (ja) | アプリケーション推薦装置及びアプリケーション推薦方法 | |
CN111861596A (zh) | 一种文本分类方法和装置 | |
CN110020132B (zh) | 关键词推荐方法、装置、计算设备及存储介质 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
US10614100B2 (en) | Semantic merge of arguments | |
JP7172187B2 (ja) | 情報表示方法、情報表示プログラムおよび情報表示装置 | |
CN114387062A (zh) | 管家推荐模型的训练、管家推荐方法及电子设备 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN110825954A (zh) | 关键词推荐方法、装置和电子设备 | |
CN111324725B (zh) | 一种话题获取方法、终端、计算机可读存储介质 | |
US20160162930A1 (en) | Associating Social Comments with Individual Assets Used in a Campaign |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |