CN114548779A - 保险数据分析方法、装置、计算机设备及存储介质 - Google Patents

保险数据分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114548779A
CN114548779A CN202210171464.3A CN202210171464A CN114548779A CN 114548779 A CN114548779 A CN 114548779A CN 202210171464 A CN202210171464 A CN 202210171464A CN 114548779 A CN114548779 A CN 114548779A
Authority
CN
China
Prior art keywords
insurance
text
target
words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210171464.3A
Other languages
English (en)
Inventor
汤海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fubao Technology Co ltd
Original Assignee
Nanjing Fubao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fubao Technology Co ltd filed Critical Nanjing Fubao Technology Co ltd
Priority to CN202210171464.3A priority Critical patent/CN114548779A/zh
Publication of CN114548779A publication Critical patent/CN114548779A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本方案涉及一种保险数据分析方法、装置、计算机设备及存储介质。所述方法包括:获取保险文本名称,并查找与保险文本名称对应的保险文本;确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据;根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。使用正则表达式统计和分析保险数据,并计算出可读性指数,进而确定保险文本被阅读和理解的难易程度,帮助评价保险产品,无需人工分析,节约了分析成本;通过使用正则表达式统计保险数据,可以提高后续保险数据分析的准确性。

Description

保险数据分析方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种保险数据分析方法、装置、计算机设备及存储介质。
背景技术
随着社会的发展,科学技术也在不断发展,人们生活水平不断提高,保险意识也在不断增强。市场上出现了各种各样的保险产品,保险产品是一种无形商品,保户只能根据很抽象的保险合同条文来理解其产品的功能和作用。由于保险商品的这一特点,大部分保险公司的多个保险处理环节均采用了风险评估规则,且进行风险等级评估时,也通常由风险评估人员对某个待评估的保险处理环节的数据,按照预设的评估规则进行人工风险分析,从而将分析结果告知保户。然而,保险术语通常是比较专业的,风险评估人员在将分析结果告知保户时,通常不能做到在语言上简洁明确、清晰易懂。
因此,传统的保险数据风险分析分析效率和分析准确率都比较低,需要投入的大量的人力和物力。
发明内容
基于此,为了解决上述技术问题,提供一种保险数据分析方法、装置、计算机设备及存储介质,可以提高保险数据分析的准确性,且节约分析成本。
一种保险数据分析方法,所述方法包括:
获取保险文本名称,并查找与所述保险文本名称对应的保险文本;
确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;
根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。
在其中一个实施例中,所述使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据,包括:
使用正则表达式统计出所述目标保险文本中的文本字数量、保险词数量、保险句数量,并将所述文本字数量、所述保险词数量、所述保险句数量作为所述保险数据。
在其中一个实施例中,所述保险数据还包括保险难词数量;所述使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据,还包括:
使用正则表达式统计出所述保险词数量,并从所述目标保险文本中获取与所述保险词数量对应的各个保险词;
分别将各个所述保险词与词库进行比对,并分别计算各个所述保险词的使用频率;
根据所述使用频率从各个所述保险词中确定保险难词,并统计所述保险难词得到所述保险难词数量。
在其中一个实施例中,所述根据所述保险数据计算所述目标保险文本的可读性指数,包括:
根据所述文本字数量、所述保险词数量、所述保险句数量、所述保险难词数量,计算所述保险难词的难词密度以及保险句的平均句长;
按照Z-Score标准化分别计算所述难词密度、所述平均句长的标准分;
根据所述难词密度的标准分、所述平均句长的标准分计算所述可读性指数。
在其中一个实施例中,根据所述文本字数量、所述保险词数量、所述保险句数量、所述保险难词数量,计算所述保险难词的难词密度以及保险句的平均句长,包括:
提取所述保险词数量、所述保险难词数量,将所述保险难词数量除以所述保险词数量再乘以难词系数,得到所述难词密度;
提取所述文本字数量、所述保险句数量,将所述文本字数量除以所述保险句数量,得到所述平均句长。
在其中一个实施例中,根据所述难词密度的标准分、所述平均句长的标准分计算所述可读性指数,包括:
计算所述难词密度的标准分与所述平均句长的标准分之和,得到初始指数;
获取目标系数,并计算所述目标系数与所述初始指数的乘积,得到所述可读性指数
在其中一个实施例中,统计不出所述文本字数量、所述保险词数量、所述保险句数量时,再次使用正则表达式对所述目标保险文本做文本分析。
一种保险数据分析装置,所述装置包括:
文本查找模块,用于获取保险文本名称,并查找与所述保险文本名称对应的保险文本;
格式转换模块,用于确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
文本分析模块,用于使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;
指数计算模块,用于根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取保险文本名称,并查找与所述保险文本名称对应的保险文本;
确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;
根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取保险文本名称,并查找与所述保险文本名称对应的保险文本;
确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;
根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。
上述保险数据分析方法、装置、计算机设备及存储介质,通过获取保险文本名称,并查找与所述保险文本名称对应的保险文本;确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。使用正则表达式对保险文本中的保险数据进行统计和分析,可以计算出保险文本的可读性指数,进而根据可读性指数确定保险文本被阅读和理解的难易程度,可以帮助评价保险产品的复杂性,且无需人工进行分析,节约了分析成本;且通过转换保险文本的格式,使用正则表达式统计保险数据,可以提高后续保险数据分析的准确性。
附图说明
图1为一个实施例中保险数据分析方法的应用环境图;
图2为一个实施例中保险数据分析方法的流程示意图;
图3为一个实施例中保险数据分析装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的保险数据分析方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取保险文本名称,并查找与保险文本名称对应的保险文本;计算机设备110可以确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;计算机设备110可以使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据;计算机设备110可以根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种保险数据分析方法,包括以下步骤:
步骤202,获取保险文本名称,并查找与保险文本名称对应的保险文本。
计算机设备可以获取到保险文本名称,具体的,使用者可以打开计算机设备上的目标文件,目标文件中可以存储有各个保险文本,使用者可以通过计算机设备上的搜索框输入保险文本名称,即计算机设备获取到保险文本名称。
不同的保险文本可以对应有不同的保险文本名称。计算机设备获取到保险文本名称后,可以在文件系统中进行查询,即,查找与保险文本名称对应的文本地址。计算机设备可以根据查询到的文本地址打开对应的保险文本。
其中,保险文本可以是保险合同,还可以是保险产品,还可以是对保险产品的说明资料。
步骤204,确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本。
保险文本的文件格式一般是PDF格式,计算机设备获取到保险文本后,可以进一步识别出保险文本是哪一种文件格式。其中,目标文件格式可以是预先设置好的,便于后续进行文本分析的文件格式。在本实施例中,目标文件格式可以是TXT格式。
计算机设备可以确定保险文本的文件格式,并对文件格式进行判断,当保险文本的文件格式与目标文件格式不一致时,计算机设备可以将文件格式转换为目标文件格式,从而得到目标文件格式的目标保险文本。
步骤206,使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据。
正则表达式又称为规则表达式,通常被用来检索、替换那些符合某个模式或者规则的文本。
计算机设备可以使用正则表达式对目标保险文本进行文本分析,具体的,计算机设备可以使用正则表达式对转换为目标文件格式的目标保险文本进行文本分析,统计出目标保险文本中的保险数据。
步骤208,根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。
其中,可读性指数可以用于表示目标保险文本被阅读和理解的难易程度。计算机设备在统计出目标保险文本中的保险数据后,可以进一步计算出目标保险文本的可读性指数。
计算机设备可以将统计与计算出的数据按保险文本名称储存在目标文件中,具体的,计算机设备可以将统计与计算出的数据按保险文本名称储存在指定的Excel文件下,便于后续查看和分析。
在本实施例中,计算机设备通过获取保险文本名称,并查找与保险文本名称对应的保险文本;确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据;根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。使用正则表达式对保险文本中的保险数据进行统计和分析,可以计算出保险文本的可读性指数,进而根据可读性指数确定保险文本被阅读和理解的难易程度,可以帮助评价保险产品的复杂性,且无需人工进行分析,节约了分析成本;且通过转换保险文本的格式,使用正则表达式统计保险数据,可以提高后续保险数据分析的准确性。
在一个实施例中,提供的一种保险数据分析方法还可以包括统计保险数据的过程,具体过程包括:使用正则表达式统计出目标保险文本中的文本字数量、保险词数量、保险句数量,并将文本字数量、保险词数量、保险句数量作为保险数据。
计算机设备可以使用正则表达式统计出目标保险文本中的文本字数、保险词数、保险句数,即文本字数量、保险词数量、保险句数量,并作为保险数据存储在计算机设备中。
在另一个实施例中,提供的一种保险数据分析方法还可以包括统计保险数据的过程,具体过程包括:使用正则表达式统计出保险词数量,并从目标保险文本中获取与保险词数量对应的各个保险词;分别将各个保险词与词库进行比对,并分别计算各个保险词的使用频率;根据使用频率从各个保险词中确定保险难词,并统计保险难词得到保险难词数量。
保险数据还可以包括保险难词数量。
计算机设备可以使用正则表达式统计出目标保险文本中的保险词数据,并提取出目标保险文本中的各个保险词。接着,计算机设备可以分别将各个保险词与现有的中文词库中的词汇进行比对,对每个保险词按使用频率是否符合指定阈值范围来认定其是否为保险难词。确定各个保险词中的保险难词后,计算机设备可以统计出保险难词数量。
在又一个实施例中,提供的一种保险数据分析方法还可以包括统计保险数据的过程,具体过程包括:根据文本字数量、保险词数量、保险句数量、保险难词数量,计算保险难词的难词密度以及保险句的平均句长;按照Z-Score标准化分别计算难词密度、平均句长的标准分;根据难词密度的标准分、平均句长的标准分可读性指数。
其中,难词密度可以用于表示保险难词在目标保险文本中的分布程度。平均句长可以用于表示保险句在目标保险文本中的平均长度。
计算机设备可以按照Z-Score标准化计算出难词密度的标准分,具体的,难词密度的标准分计算公式可以是:难词密度的标准分=(难词密度-平均数)/难词密度标准差。
计算机设备可以按照Z-Score标准化计算出平均句长的标准分,具体的,平均句长的标准分计算公式可以是:平均句长的标准分=(平均句长-平均数)/句长标准差。
在一个实施例中,计算机设备可以提取保险词数量、保险难词数量,将保险难词数量除以保险词数量再乘以难词系数,得到难词密度;提取文本字数量、保险句数量,将文本字数量除以保险句数量,得到平均句长。
其中,难词系数可以是100,即,在本实施例中,计算难词密度的公式为:难词密度=(保险难词数量/保险词数量)*100。计算平均句长的公式为:平均句长=文本字数量/保险句数量。
在一个实施例中,提供的一种保险数据分析方法还可以包括计算可读性指数的过程,具体过程包括:计算难词密度的标准分与平均句长的标准分之和,得到初始指数;获取目标系数,并计算目标系数与初始指数的乘积,得到可读性指数。
其中,目标系数可以是使用者预先设置好的一个固定数值,在本实施例中,目标系数可以是0.4。计算机设备可以先计算出难词密度的标准分与平均句长的标准分之和,并将二者之和作为初始指数,接着,计算机设备可以进一步计算目标系数与初始指数的乘积,并将二者的乘积作为可读性指数。即,可读性指数的计算公式为:可读性指数=(难词密度的标准分+平均句长的标准分)*0.4。
在一个实施例中,提供的一种保险数据分析方法还可以包括统计报错时再次分析的过程,具体过程包括:统计不出文本字数量、保险词数量、保险句数量时,再次使用正则表达式对目标保险文本做文本分析。
在本实施例中,计算机设备通过正则表达式统计不出文本字数量、保险词数量、保险句数量时,会自动进行报错,并再次使用正则表达式对目标保险文本做文本分析。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种保险数据分析装置,包括:文本查找模块310、格式转换模块320、文本分析模块330和指数计算模块340,其中:
文本查找模块310,用于获取保险文本名称,并查找与保险文本名称对应的保险文本;
格式转换模块320,用于确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
文本分析模块330,用于使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据;
指数计算模块340,用于根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。
在一个实施例中,文本分析模块330还用于使用正则表达式统计出目标保险文本中的文本字数量、保险词数量、保险句数量,并将文本字数量、保险词数量、保险句数量作为保险数据。
在一个实施例中,保险数据还包括保险难词数量;文本分析模块330还用于使用正则表达式统计出保险词数量,并从目标保险文本中获取与保险词数量对应的各个保险词;分别将各个保险词与词库进行比对,并分别计算各个保险词的使用频率;根据使用频率从各个保险词中确定保险难词,并统计保险难词得到保险难词数量。
在一个实施例中,指数计算模块340还用于根据文本字数量、保险词数量、保险句数量、保险难词数量,计算保险难词的难词密度以及保险句的平均句长;按照Z-Score标准化分别计算难词密度、平均句长的标准分;根据难词密度的标准分、平均句长的标准分计算可读性指数。
在一个实施例中,指数计算模块340还用于提取保险词数量、保险难词数量,将保险难词数量除以保险词数量再乘以难词系数,得到难词密度;提取文本字数量、保险句数量,将文本字数量除以保险句数量,得到平均句长。
在一个实施例中,指数计算模块340还用于计算难词密度的标准分与平均句长的标准分之和,得到初始指数;获取目标系数,并计算目标系数与初始指数的乘积,得到可读性指数。
在一个实施例中,文本分析模块330还用于统计不出文本字数量、保险词数量、保险句数量时,再次使用正则表达式对目标保险文本做文本分析。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种保险数据分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取保险文本名称,并查找与保险文本名称对应的保险文本;
确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据;
根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:使用正则表达式统计出目标保险文本中的文本字数量、保险词数量、保险句数量,并将文本字数量、保险词数量、保险句数量作为保险数据。
在一个实施例中,保险数据还包括保险难词数量;处理器执行计算机程序时还实现以下步骤:使用正则表达式统计出保险词数量,并从目标保险文本中获取与保险词数量对应的各个保险词;分别将各个保险词与词库进行比对,并分别计算各个保险词的使用频率;根据使用频率从各个保险词中确定保险难词,并统计保险难词得到保险难词数量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据文本字数量、保险词数量、保险句数量、保险难词数量,计算保险难词的难词密度以及保险句的平均句长;按照Z-Score标准化分别计算难词密度、平均句长的标准分;根据难词密度的标准分、平均句长的标准分计算可读性指数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取保险词数量、保险难词数量,将保险难词数量除以保险词数量再乘以难词系数,得到难词密度;提取文本字数量、保险句数量,将文本字数量除以保险句数量,得到平均句长。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算难词密度的标准分与平均句长的标准分之和,得到初始指数;获取目标系数,并计算目标系数与初始指数的乘积,得到可读性指数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:统计不出文本字数量、保险词数量、保险句数量时,再次使用正则表达式对目标保险文本做文本分析。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取保险文本名称,并查找与保险文本名称对应的保险文本;
确定保险文本的文件格式,并将文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
使用正则表达式对目标保险文本做文本分析,统计目标保险文本中的保险数据;
根据保险数据计算目标保险文本的可读性指数,并将可读性指数按照保险文本名称存储在目标文件中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:使用正则表达式统计出目标保险文本中的文本字数量、保险词数量、保险句数量,并将文本字数量、保险词数量、保险句数量作为保险数据。
在一个实施例中,保险数据还包括保险难词数量;计算机程序被处理器执行时还实现以下步骤:使用正则表达式统计出保险词数量,并从目标保险文本中获取与保险词数量对应的各个保险词;分别将各个保险词与词库进行比对,并分别计算各个保险词的使用频率;根据使用频率从各个保险词中确定保险难词,并统计保险难词得到保险难词数量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据文本字数量、保险词数量、保险句数量、保险难词数量,计算保险难词的难词密度以及保险句的平均句长;按照Z-Score标准化分别计算难词密度、平均句长的标准分;根据难词密度的标准分、平均句长的标准分计算可读性指数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取保险词数量、保险难词数量,将保险难词数量除以保险词数量再乘以难词系数,得到难词密度;提取文本字数量、保险句数量,将文本字数量除以保险句数量,得到平均句长。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算难词密度的标准分与平均句长的标准分之和,得到初始指数;获取目标系数,并计算目标系数与初始指数的乘积,得到可读性指数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:统计不出文本字数量、保险词数量、保险句数量时,再次使用正则表达式对目标保险文本做文本分析。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种保险数据分析方法,其特征在于,所述方法包括:
获取保险文本名称,并查找与所述保险文本名称对应的保险文本;
确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;
根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。
2.根据权利要求1所述的保险数据分析方法,其特征在于,所述使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据,包括:
使用正则表达式统计出所述目标保险文本中的文本字数量、保险词数量、保险句数量,并将所述文本字数量、所述保险词数量、所述保险句数量作为所述保险数据。
3.根据权利要求2所述的保险数据分析方法,其特征在于,所述保险数据还包括保险难词数量;所述使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据,还包括:
使用正则表达式统计出所述保险词数量,并从所述目标保险文本中获取与所述保险词数量对应的各个保险词;
分别将各个所述保险词与词库进行比对,并分别计算各个所述保险词的使用频率;
根据所述使用频率从各个所述保险词中确定保险难词,并统计所述保险难词得到所述保险难词数量。
4.根据权利要求3所述的保险数据分析方法,其特征在于,所述根据所述保险数据计算所述目标保险文本的可读性指数,包括:
根据所述文本字数量、所述保险词数量、所述保险句数量、所述保险难词数量,计算所述保险难词的难词密度以及保险句的平均句长;
按照Z-Score标准化分别计算所述难词密度、所述平均句长的标准分;
根据所述难词密度的标准分、所述平均句长的标准分计算所述可读性指数。
5.根据权利要求4所述的保险数据分析方法,其特征在于,根据所述文本字数量、所述保险词数量、所述保险句数量、所述保险难词数量,计算所述保险难词的难词密度以及保险句的平均句长,包括:
提取所述保险词数量、所述保险难词数量,将所述保险难词数量除以所述保险词数量再乘以难词系数,得到所述难词密度;
提取所述文本字数量、所述保险句数量,将所述文本字数量除以所述保险句数量,得到所述平均句长。
6.根据权利要求4所述的保险数据分析方法,其特征在于,所述根据所述难词密度的标准分、所述平均句长的标准分计算所述可读性指数,包括:
计算所述难词密度的标准分与所述平均句长的标准分之和,得到初始指数;
获取目标系数,并计算所述目标系数与所述初始指数的乘积,得到所述可读性指数。
7.根据权利要求2所述的保险数据分析方法,其特征在于,统计不出所述文本字数量、所述保险词数量、所述保险句数量时,再次使用正则表达式对所述目标保险文本做文本分析。
8.一种保险数据分析装置,其特征在于,所述装置包括:
文本查找模块,用于获取保险文本名称,并查找与所述保险文本名称对应的保险文本;
格式转换模块,用于确定所述保险文本的文件格式,并将所述文件格式转换为目标文件格式,得到目标文件格式的目标保险文本;
文本分析模块,用于使用正则表达式对所述目标保险文本做文本分析,统计所述目标保险文本中的保险数据;
指数计算模块,用于根据所述保险数据计算所述目标保险文本的可读性指数,并将所述可读性指数按照所述保险文本名称存储在目标文件中。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210171464.3A 2022-02-24 2022-02-24 保险数据分析方法、装置、计算机设备及存储介质 Pending CN114548779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210171464.3A CN114548779A (zh) 2022-02-24 2022-02-24 保险数据分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210171464.3A CN114548779A (zh) 2022-02-24 2022-02-24 保险数据分析方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114548779A true CN114548779A (zh) 2022-05-27

Family

ID=81676648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210171464.3A Pending CN114548779A (zh) 2022-02-24 2022-02-24 保险数据分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114548779A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147013A (zh) * 2022-08-31 2022-10-04 南京复保科技有限公司 保险产品可读性计算方法、装置、计算机设备及存储介质
CN116110068A (zh) * 2023-01-19 2023-05-12 广州盈尚信息科技有限公司 保单分析报表生成方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147013A (zh) * 2022-08-31 2022-10-04 南京复保科技有限公司 保险产品可读性计算方法、装置、计算机设备及存储介质
CN116110068A (zh) * 2023-01-19 2023-05-12 广州盈尚信息科技有限公司 保单分析报表生成方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110457431B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN108874928B (zh) 简历数据信息解析处理方法、装置、设备及存储介质
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN110674319B (zh) 标签确定方法、装置、计算机设备及存储介质
CN108536800B (zh) 文本分类方法、系统、计算机设备和存储介质
CN114548779A (zh) 保险数据分析方法、装置、计算机设备及存储介质
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN112711660B (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN110674131A (zh) 财务报表数据处理方法、装置、计算机设备和存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN112036647B (zh) 基于人工智能的简历信息处理方法、装置、设备及介质
CN112288279A (zh) 基于自然语言处理和线性回归的业务风险评估方法和装置
CN113590823A (zh) 一种合同审批方法、装置、存储介质及电子设备
CN112685639A (zh) 活动推荐方法、装置、计算机设备和存储介质
KR20220151453A (ko) 상품의 가격 예측 방법
CN113779994A (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN113780673A (zh) 离职预测模型的训练方法、装置及离职预测方法、装置
CN112464660A (zh) 文本分类模型构建方法以及文本数据处理方法
CN112329425A (zh) 一种科研项目智能评审方法、存储介质
CN115147013B (zh) 保险产品可读性计算方法、装置、计算机设备及存储介质
US11481389B2 (en) Generating an executable code based on a document
CN115827877A (zh) 一种提案辅助并案的方法、装置、计算机设备和存储介质
CN113569533B (zh) 保险内容标注方法、系统、计算机设备及存储介质
CN113190658B (zh) 提案热点精准提取的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination