CN112559688A - 财报的阅读难度计算方法、装置、设备及可读存储介质 - Google Patents

财报的阅读难度计算方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112559688A
CN112559688A CN202011514191.5A CN202011514191A CN112559688A CN 112559688 A CN112559688 A CN 112559688A CN 202011514191 A CN202011514191 A CN 202011514191A CN 112559688 A CN112559688 A CN 112559688A
Authority
CN
China
Prior art keywords
text
financial
neural network
training
reading difficulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011514191.5A
Other languages
English (en)
Inventor
张尧
陈泽晖
汪辉
毛进亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN202011514191.5A priority Critical patent/CN112559688A/zh
Publication of CN112559688A publication Critical patent/CN112559688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理,提供一种财报的阅读难度计算方法,该方法包括:从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本;对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征;根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。本发明还公开了一种财报的阅读难度计算装置、设备及可读存储介质。本发明通过对训练财报进行文本化、结构化处理、特征提取和训练预设神经网络,使通过神经网络对财报阅读难度的计算适用中文场景。

Description

财报的阅读难度计算方法、装置、设备及可读存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及财报的阅读难度计算方法、装置、设备及可读存储介质。
背景技术
迷雾指数(The Gunning FOG Index),是由美国教授Robert Gunning于1952年提出的指数。该指数可从词数、难度、完整思维的数量和平均句长等方面考察一篇文章的阅读难度。该指数常用来测算要轻松读懂某篇文章,需要读者(原指以英语为母语者,中文中不具备长单词,英文中长单词主要是指多音节词)具备多少年的正规教育。一篇文章的指数值是多少,就表示需要几年级的程度才能看得懂。一篇文章的FOG指数值越低,读者就越容易读懂。
目前市面上存在部分类似的产品,但存在着指数构建方式较为原始,仅从英文文本fog index衍生而来,而汉语与英语在语法、语句等方面差异很大,因此原始的fog index不能很好的适用于汉语语境,导致效果比较差。
发明内容
本发明的主要目的在于提供一种财报的阅读难度计算方法、装置、设备及可读存储介质,旨在解决现有的阅读难度计算方法不适用汉语语境的技术问题。
此外,为实现上述目的,本发明还提供一种财报的阅读难度计算方法,所述财报的阅读难度计算方法包括以下步骤:
从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本;
对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征;
根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。
可选地,所述从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本的步骤包括:
从预设数据库获取训练财报,从所述训练财报中筛选出非财务信息,并对所述非财务信息做剔除处理,以使所述剔除处理后的训练财报仅包含财务信息;
对所述财务信息进行文本化处理,得到财报文本。
可选地,所述对所述财报文本进行结构化处理,得到文本信息的步骤包括:
对所述财报文本进行分词处理,得到文本词汇,并确定所述文本词汇中所有目标词语的语法关系;
提取所述财报文本中的分隔符,并根据所述语法关系和所述分隔符,对所述财报文本进行分句处理,得到文本语句;
筛选出所述财报文本中的生僻字,以及所述文本词汇中的专业词语,其中,结构化处理包括所述分词处理和所述分句处理,文本信息包括所述文本词汇,所述文本语句,所述生僻字和所述专业词语。
可选地,所述根据所述语法关系和所述分隔符,对所述财报文本进行分句处理,得到文本语句的步骤包括:
查找所述分隔符中的预设断句符,并确定任意两个相邻的预设断句符之间的目标文本;
根据所述目标文本中所有词语的语法关系,确定所述目标文本中语句的数量;
若所述目标文本中语句的数量为一,则将所述目标文本作为文本语句;
若所述目标文本中语句的数量大于一,则根据所述目标文本中所有词语的语法关系,对所述目标文本进行分句处理,得到文本语句。
可选地,所述提取所述文本信息中的文本特征的步骤包括:
查询所述财报文本的总字数,并计算所有文本语句的平均句长,所述生僻字与所述总字数的第一比例,所述专业词语与所述总字数的第二比例;
查询所述文本语句中所有词语的语法关系数,并计算所有文本语句的平均语法关系数,将所述平均句长,所述第一比例,所述第二比例和所述平均语法关系数作为文本特征。
可选地,所述根据所述文本特征,训练预设神经网络的步骤包括:
将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵;
将所述第一矩阵与激活层中的线性整流函数进行运算,得到第二矩阵,其中,所述激活层属于所述预设神经网络;
对所述第二矩阵进行第二线性运算和逻辑回归运算,得到概率值集合;
根据所述概率值集合中的概率值,计算所述概率值集合的交叉熵损失,并根据所述交叉熵损失,对所述第一线性运算的第一参数,以及所述第二线性运算的第二参数进行调整,以完成所述预设神经网络的训练,得到目标神经网络。
可选地,所述根据所述交叉熵损失,对所述第一线性运算的参数,以及所述第二线性运算的参数进行调整的步骤包括:
按照预设单一调整原则对所述第一参数和所述第二参数进行调整;
当调整完成后,返回将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵的步骤,并对比循环前后得到的交叉熵损失;
根据对比结果,按照预设单一调整原则对所述第一参数和所述第二参数进行调整,直至得到的交叉熵损失小于预设阈值,完成所述预设神经网络的训练,得到目标神经网络。
此外,为实现上述目的,本发明还提供一种财报的阅读难度计算装置,所述财报的阅读难度计算装置包括:
文本化处理模块,用于从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本;
文本特征提取模块,用于对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征;
模型训练模块,用于根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。
此外,为实现上述目的,本发明还提供一种财报的阅读难度计算设备,所述财报的阅读难度计算设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的财报的阅读难度计算程序,所述财报的阅读难度计算程序被所述处理器执行时实现如上述的财报的阅读难度计算方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有财报的阅读难度计算程序,所述财报的阅读难度计算程序被处理器执行时实现如上述的财报的阅读难度计算方法的步骤。
本发明实施例提出的一种财报的阅读难度计算方法、装置、设备及可读存储介质。本发明实施例中通过从预设数据库获取训练财报,然后对训练财报进行文本化处理,从而得到财报文本,进而再对财报文本进行结构化处理,得到文本信息,并随后提取文本信息中的文本特征,最后,根据从文本信息中提取到的文本特征,训练预设的神经网络,当训练完成后,向训练好的神经网络中输入待处理财报,便可得到预设神经网络输出的待处理财报的阅读难度,本申请通过对训练财报进行文本化、结构化处理、特征提取和训练预设神经网络,使通过神经网络对财报阅读难度的计算适用中文场景。
附图说明
图1为本发明实施例提供的财报的阅读难度计算设备一种实施方式的硬件结构示意图;
图2为本发明财报的阅读难度计算方法第一实施例的流程示意图;
图3为本发明财报的阅读难度计算方法第二实施例的流程示意图;
图4为本发明财报的阅读难度计算装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例财报的阅读难度计算终端(又叫终端、设备或者终端设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及财报的阅读难度计算程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的财报的阅读难度计算程序,所述财报的阅读难度计算程序被处理器执行时实现下述实施例提供的财报的阅读难度计算方法中的操作。
基于上述设备硬件结构,提出了本发明财报的阅读难度计算方法的实施例。
参照图2,在本发明财报的阅读难度计算方法的第一实施例中,所述财报的阅读难度计算方法包括:
步骤S10,从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本。
本实施例中的预设数据库是指,各公司公开的年报、公告和交易所问询函等信息,训练财报是指待处理的财务报告(或财务报表),是本申请适用的求阅读难度的目标,本实施例中的文本化处理是指,筛选出训练财报中的纯文字部分,可以理解的是,训练财报中可能包含非文字的图片,统计图表以及对阅读难度没有影响的目录页和日期等信息,对包含文字信息的图片,文本化处理可以是提取图片中的文字内容,对训练财报进行文本化处理后将得到财报文本。
步骤S20,对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征。
本实施中的结构化处理包括分句处理和分词处理,当得到财报文本后,首先利用敏感词库与财报文本进行对比,确定财报文本中是否包含敏感词汇,当财报文本中包含敏感词汇时,将敏感词汇剔除,具体地,利用预设词库与财报文本进行对比,以实现对财报文本的分词处理,具体地,当对“我今天去上海”这句话进行分词处理时,首先查找预设词库中含有“我”字的词语,查找结果包括“我”,“我们”,“自我”,“我行我素”等,再对比“我今天去上海”这句话,两个及以上带有“我”字的词语中没有“我今”或者“我今天去”的词语,对“我今天去上海”这句话进行分词处理首先得到第一个词“我”,然后再对“今天去上海”进行分词处理,逐步得到分词结果,而外文词语将被翻译成中文或者被剔除,对财报文本进行分词处理之后,便可利用哈工大开源的PyLTP包提取财报文本中的语法结构,然后,根据提取到的语法结构,以及分词结果,对财报文本进行分句处理,得到文本信息,具体地,根据预设语法规则对财报文本进行分句处理,例如,一句话中不会出现两个主语结构,当提取到两个相邻的主谓关系时,将第一个主谓关系中的主语到另一个主谓关系中的主语之前的部分作为一个完整的语句,以此达到分句的目的,本实施例中的文本信息包括分句处理得到的语句,以及分词处理得到的词语,在得到文本信息后,获取财报文本的总字数,以及财报文本中的生僻字和专业词语,具体地,判断一个字是否为生僻字可以将其与预设常用字集合进行对比,不在预设常用字集合中的文字即是生僻字,专业词语是指金融行业或会计行业的专用词语,判断一个词是否为专业词语可以将其与预设金融(或会计)用词集合进行对比,计算生僻字(占总字数)的比例,以及专业词语(占总字数)的比例,本实施例中的文本特征至少包括生僻字比例以及专业词语比例。
步骤S30,根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。
获取到的文本特征会被用于训练预设神经网络,具体地,文本特征还可以包括平均句长,和平均语法关系数,其中,平均句长是指所有句子的平均字数,可以理解的是,句长越长,句子阅读理解难度越大,平均语法关系数是指,已知,中文中的语法关系包括主谓关系、动宾关系、间宾关系、独立结构等,词的语法词性包括主谓宾定状补,一句话中包含的语法词性和语法关系越多,句子阅读理解难度越大,可知地,通过预先的调研或评估,可以初步确定一篇训练财报的阅读难度,并对该篇训练财报进行评分,并将评分作为该训练财报的阅读难度标签,还可以通过对已公开的问题财报进行标签,标记为好的财报和不好的财报(0 1分类问题),再对已标记的财报进行模型训练,以得到文本特征(平均句长、生僻词比例以及专业词语比例等)与标签的关系,训练完成后,将上述财报文本(包含文本特征)输入这个训练好的模型,若模型输出的是0,则表示该财报文本是一个不好的财报。
具体地,步骤S10细化的步骤,包括:
步骤a1,从预设数据库获取训练财报,从所述训练财报中筛选出非财务信息,并对所述非财务信息做剔除处理,以使所述剔除处理后的训练财报仅包含财务信息;
步骤a2,对所述财务信息进行文本化处理,得到财报文本。
从预设数据库中获取待处理的财报,其中,预设数据库是指公开的公司年报、公告以及交易问询函回复等,获取到训练财报后,利用图像识别方法判断训练财报中是否包含非文字内容的图像,具体地,可以通过边缘提取算法获取训练财报中单个标识(包括文字,图像和符号)的边缘轮廓信息,再判断获取到的边缘轮廓信息中是否包含具有不规则边缘轮廓的单个标识,并确认这个具有不规则边缘轮廓的单个标识就是图像,获取到图像后,再利用图像识别算法,判断图像中是否包含文字,若图像中不包含文字,则在文本化处理时直接将图像省略,若图像中包含文字,则提取图像中的文字,剔除非文字内容的表格和数据分析图的方法相同,本实施例的目的是,对训练财报进行预处理,以剔除训练财报中对训练财报的阅读难度没有影响的信息,以便对所有的训练财报的内容进行统一,也使得阅读难度的对比更加标准。
具体地,步骤S20细化的步骤,包括:
步骤b1,对所述财报文本进行分词处理,得到文本词汇,并确定所述文本词汇中所有目标词语的语法关系;
步骤b2,提取所述财报文本中的分隔符,并根据所述语法关系和所述分隔符,对所述财报文本进行分句处理,得到文本语句;
步骤b3,筛选出所述财报文本中的生僻字,以及所述文本词汇中的专业词语,其中,结构化处理包括所述分词处理和所述分句处理,文本信息包括所述文本词汇,所述文本语句,所述生僻字和所述专业词语。
已知中文的语法关系包括主谓关系、动宾关系、间宾关系、独立结构等,词的语法词性包括主语、谓语、宾语、定语、状语和补语等,本方案利用哈工大开源的PyLTP包(自然语言处理包)提取财报文本中的语法结构,首先,对得到的财报文本进行分词处理,,某个词语具体的语法词性是什么,除了根据它可以做的语法词性外,还可以根据它在一句话中所处的位置决定,例如,主语一般都在一句话的开头,而宾语一般都在主语的后面,通过这些逻辑顺序,可以确定文本词汇中所有目标词语的语法关系,然后再提取财报文本中的分隔符,这里的分隔符是指标点符号,例如,逗号、句号和问号等,其中,有些标点符号可以直接作为两句话的分隔符,例如,句号和问号,但由于标点符号大多是人为添加的,因此存在标点符号使用不正确的情况,即,该是一句话的结尾,写作者却用了逗号,不该是一句话的结尾,写作者却用了句号,针对上述情况,本实施例在进行分句处理时,需要综合考虑目标词语间的语法关系以及分隔符,具体可以理解的是,一句话中最多只能出现一个主语,因此,一句话中最多只能存在一个主谓结构,在一个主语与下一个相邻的主语之间的文字内容即是一句完整的语句,通过该方法,可以得到文本语句,进而再获取财报文本的总字数,以及财报文本中的生僻字和专业词语。
具体地,步骤b2细化的步骤包括:
步骤c1,查找所述分隔符中的预设断句符,并确定任意两个相邻的预设断句符之间的目标文本;
步骤c2,根据所述目标文本中所有词语的语法关系,确定所述目标文本中语句的数量;
步骤c3,若所述目标文本中语句的数量为一,则将所述目标文本作为文本语句;
步骤c4,若所述目标文本中语句的数量大于一,则根据所述目标文本中所有词语的语法关系,对所述目标文本进行分句处理,得到文本语句。
可以理解的是,由于预设断句符为人为使用,所以两个相邻的预设断句符之间不一定是一句话,本实施例中的步骤a3和a4已在上述内容中详述了,可以理解的是,还包括第三种情况,即目标文本中语句的数量不到一,即财报文本的撰写者错误地将一句话用两个预设断句符分开了,这种情况下,目标文本将取三个相邻预设断句符中第一个预设断句符与最后一个预设断句符之间的文本,并再次根据文本中所有词语的语法关系,确定文本中语句的数量,直至文本中语句的数量等于一。
具体地,步骤S20细化的步骤,还包括:
步骤d1,查询所述财报文本的总字数,并计算所有文本语句的平均句长,所述生僻字与所述总字数的第一比例,所述专业词语与所述总字数的第二比例;
步骤d2,查询所述文本语句中所有词语的语法关系数,并计算所有文本语句的平均语法关系数,将所述平均句长,所述第一比例,所述第二比例和所述平均语法关系数作为文本特征。
本实施例中查询财报文本的总字数的原因是,由于每一篇财报文本长度不同,因此得到的文本信息,比如生僻字数,财报文本越长,生僻字数可能越多,因此,需要查询财报文本的总字数,以便对财报文本进行标准化处理,其中,标准化处理是指,将得到的文本信息除以财报文本的总字数,得到一个不同财报文本之间可以进行比较的标准,本实施例中的平均语法关系数是指,财报文本中所有语句的语法关系的平均数,其与平均句长一样可以作为衡量一句话阅读难度的标准,且平均语法关系数越大,财报文本的阅读难度越大。
本实施例通过从预设数据库获取待处理的财报,然后对待处理的财报进行文本化处理,从而得到财报文本,进而再对财报文本进行结构化处理,得到文本信息,并随后提取文本信息中的文本特征,最后,根据从文本信息中提取到的文本特征,训练预设的神经网络,当训练完成后,向训练好的神经网络中输入测试财报,便可得到预设神经网络输出的表示测试财报阅读难度的阅读难度值,本申请通过对训练财报进行文本化、结构化处理、特征提取和神经网络学习,使通过神经网络对财报阅读难度的计算适用中文场景。
进一步地,参照图3,在本发明上述实施例的基础上,提出了本发明财报的阅读难度计算方法的第二实施例。
本实施例是第一实施例中步骤S30细化的步骤,本实施例与本发明上述实施例的区别在于:
步骤S31,将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵。
步骤S32,将所述第一矩阵与激活层中的线性整流函数进行运算,得到第二矩阵,其中,所述激活层属于所述预设神经网络。
步骤S33,对所述第二矩阵进行第二线性运算和逻辑回归运算,得到概率值集合。
步骤S34,根据所述概率值集合中的概率值,计算所述概率值集合的交叉熵损失,并根据所述交叉熵损失,对所述第一线性运算的第一参数,以及所述第二线性运算的第二参数进行调整,以完成所述预设神经网络的训练,得到目标神经网络。
由上述第一实施例可知,本实施例中的文本特征至少包含平均句长、生僻字比例、专业词语比例以及平均语法关系数,因此,首先,对训练神经网络(即本实施例中的预设神经网络)所使用的训练财报进行标记,即标注所使用的训练财报的阅读难度,可以是具体的数值,也可以是一个范围(即阅读难度等级),然后,对训练财报进行文本化和结构化处理,计算平均句长、生僻字比例、专业词语比例以及平均语法关系数,作为训练财报的文本特征,将训练财报的文本特征输入预设神经网络,得到特征矩阵,假如本实施例中的文本特征只有4个,则得到的特征矩阵可以是1×4的矩阵,对特征矩阵进行第一线性运算利用的公式是H=A×W1+B1,其中,H为第一线性运算的结果,其实质上还是一个矩阵,A为具有一定维度的矩阵(4×维度),而维度的大小取决于神经元的数量,本实施例以50维度举例说明,则A为4×50的矩阵,在进行第一线性运算后得到的H为1×50的矩阵(即本实施例中的第一矩阵),可知地,第一矩阵中包含50个具体数值,将第一矩阵与激活层中的线性整流函数进行运算,本实施例中的线性整流函数为ReLU函数,即第一矩阵中小于0的数值输出0,大于0的数值输出等于输入,第一矩阵经过线性整流函数运算后得到的第二矩阵仍是150的矩阵,但第二矩阵中的数值大于或等于0,然后,对第二矩阵进行第二线性运算和逻辑回归运算,第二线性运算利用的公式是Y=H×W2+B2,其中,Y为第二线性运算的结果,其实质上是一个1×n的矩阵,其中,n与预设的阅读难度级别有关,本实施例中以4个阅读难度级别举例说明,则得到的Y为1×4的矩阵,W2为50×4的矩阵,得到的Y中包含4个数值,其中,最大的数值对应的阅读难度级别,即为上述训练财报的阅读难度级别,但这样的结果并不直观,因此,利用softmax层(属于预设神经网络),将Y变换成函数概率值的矩阵,具体地,将Y与softmax层中的逻辑回归函数进行运算,得到概率值集合,其中,最大的概率值对应的阅读难度级别即为上述训练财报的阅读难度级别,例如,概率值集合为(90%,3%,5%,2%),则90%对应的阅读难度级别即为上述训练财报的阅读难度级别,本实施例中根据概率值集合中的概率值,计算交叉熵损失的方法是,利用1减去90%即得到交叉熵损失,可知地,交叉熵损失越小,说明预设神经网络预测的效果越好,因此通过调整上述W1,B1,W2和B2(参数),可以降低交叉熵损失,具体地,每次微调W1,B1,W2和B2中的一个,在调整后循环上述过程,得到新的交叉熵损失,若新的交叉熵损失变小了,则继续调整上述W1,B1,W2和B2中的一个,若新的交叉熵损失变大了,则将上述调整过的参数回调,然后微调其他的参数,如此循环,直至得到的交叉熵损失小于一个接近0的预设阈值,便完成了预设神经网络的训练。
具体地,步骤S34细化的步骤包括:
步骤e1,按照预设单一调整原则对所述第一参数和所述第二参数进行调整。
步骤e2,当调整完成后,返回将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵的步骤,并对比循环前后得到的交叉熵损失。
步骤e3,根据对比结果,按照预设单一调整原则对所述第一参数和所述第二参数进行调整,直至得到的交叉熵损失小于预设阈值,完成所述预设神经网络的训练,得到目标神经网络。
可知地,本实施例中的预设单一调整原则是指,每次对参数(即上述W1,B1,W2和B2)的调整只调整一个参数,且每次微调一个参数后,都要循环执行上述S31到S34的过程,对应得到一个交叉熵损失,然后再对比前后得到的交叉熵损失,判断交叉熵损失变大了还是变小了,若交叉熵损失变大了,则将上述微调的参数调回原来的数值,然后换一个参数继续微调,然后循环执行上述S31到S34的过程,若交叉熵损失变小了,则继续微调上述微调过的参数,然后循环执行上述S31到S34的过程,直至最终得到的交叉熵损失小于预设阈值,或者,上述循环次数达到一定的数值,便完成了预设神经网络的训练。
本实施例中通过预设神经网络的训练,使训练财报的计算更适用汉语语境。
此外,参照图4,本发明实施例还提出一种财报的阅读难度计算装置,所述财报的阅读难度计算装置包括:
文本化处理模块10,用于从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本;
文本特征提取模块20,用于对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征;
模型训练模块30,用于根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。
可选地,所述文本化处理模块10,包括:
非财务信息剔除单元,用于从预设数据库获取训练财报,从所述训练财报中筛选出非财务信息,并对所述非财务信息做剔除处理,以使所述剔除处理后的训练财报仅包含财务信息;
文本化处理单元,用于对所述财务信息进行文本化处理,得到财报文本。
可选地,所述文本特征提取模块20,包括:
语法关系确定单元,用于对所述财报文本进行分词处理,得到文本词汇,并确定所述文本词汇中所有目标词语的语法关系;
分句处理单元,用于提取所述财报文本中的分隔符,并根据所述语法关系和所述分隔符,对所述财报文本进行分句处理,得到文本语句;
字词筛选单元,用于筛选出所述财报文本中的生僻字,以及所述文本词汇中的专业词语,其中,结构化处理包括所述分词处理和所述分句处理,文本信息包括所述文本词汇,所述文本语句,所述生僻字和所述专业词语。
可选地,所述分句处理单元,包括:
目标文本确定单元,用于查找所述分隔符中的预设断句符,并确定任意两个相邻的预设断句符之间的目标文本;
语句数量确定单元,用于根据所述目标文本中所有词语的语法关系,确定所述目标文本中语句的数量;
第一确定单元,用于若所述目标文本中语句的数量为一,则将所述目标文本作为文本语句;
第二确定单元,用于若所述目标文本中语句的数量大于一,则根据所述目标文本中所有词语的语法关系,对所述目标文本进行分句处理,得到文本语句。
可选地,所述文本特征提取模块20,包括:
计算单元,用于查询所述财报文本的总字数,并计算所有文本语句的平均句长,所述生僻字与所述总字数的第一比例,所述专业词语与所述总字数的第二比例;
文本特征确定单元,用于查询所述文本语句中所有词语的语法关系数,并计算所有文本语句的平均语法关系数,将所述平均句长,所述第一比例,所述第二比例和所述平均语法关系数作为文本特征。
可选地,所述模型训练模块30,包括:
特征矩阵获取单元,用于将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵;
激活单元,用于将所述第一矩阵与激活层中的线性整流函数进行运算,得到第二矩阵,其中,所述激活层属于所述预设神经网络;
线性运算单元,用于对所述第二矩阵进行第二线性运算和逻辑回归运算,得到概率值集合;
神经网络训练单元,用于根据所述概率值集合中的概率值,计算所述概率值集合的交叉熵损失,并根据所述交叉熵损失,对所述第一线性运算的第一参数,以及所述第二线性运算的第二参数进行调整,以完成所述预设神经网络的训练,得到目标神经网络。
可选地,所述神经网络训练单元,包括:
第一参数调整单元,用于按照预设单一调整原则对所述第一参数和所述第二参数进行调整;
循环单元,用于当调整完成后,返回将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵的步骤,并对比循环前后得到的交叉熵损失;
第二参数调整单元,用于根据对比结果,按照预设单一调整原则对所述第一参数和所述第二参数进行调整,直至得到的交叉熵损失小于预设阈值,完成所述预设神经网络的训练,得到目标神经网络。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有财报的阅读难度计算程序,所述财报的阅读难度计算程序被处理器执行时实现上述实施例提供的财报的阅读难度计算方法中的操作。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的财报的阅读难度计算方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种财报的阅读难度计算方法,其特征在于,所述财报的阅读难度计算方法包括以下步骤:
从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本;
对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征;
根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。
2.如权利要求1所述的财报的阅读难度计算方法,其特征在于,所述从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本的步骤包括:
从预设数据库获取训练财报,从所述训练财报中筛选出非财务信息,并对所述非财务信息做剔除处理,以使所述剔除处理后的训练财报仅包含财务信息;
对所述财务信息进行文本化处理,得到财报文本。
3.如权利要求1所述的财报的阅读难度计算方法,其特征在于,所述对所述财报文本进行结构化处理,得到文本信息的步骤包括:
对所述财报文本进行分词处理,得到文本词汇,并确定所述文本词汇中所有目标词语的语法关系;
提取所述财报文本中的分隔符,并根据所述语法关系和所述分隔符,对所述财报文本进行分句处理,得到文本语句;
筛选出所述财报文本中的生僻字,以及所述文本词汇中的专业词语,其中,结构化处理包括所述分词处理和所述分句处理,文本信息包括所述文本词汇,所述文本语句,所述生僻字和所述专业词语。
4.如权利要求3所述的财报的阅读难度计算方法,其特征在于,所述根据所述语法关系和所述分隔符,对所述财报文本进行分句处理,得到文本语句的步骤包括:
查找所述分隔符中的预设断句符,并确定任意两个相邻的预设断句符之间的目标文本;
根据所述目标文本中所有词语的语法关系,确定所述目标文本中语句的数量;
若所述目标文本中语句的数量为一,则将所述目标文本作为文本语句;
若所述目标文本中语句的数量大于一,则根据所述目标文本中所有词语的语法关系,对所述目标文本进行分句处理,得到文本语句。
5.如权利要求1所述的财报的阅读难度计算方法,其特征在于,所述提取所述文本信息中的文本特征的步骤包括:
查询所述财报文本的总字数,并计算所有文本语句的平均句长,所述生僻字与所述总字数的第一比例,所述专业词语与所述总字数的第二比例;
查询所述文本语句中所有词语的语法关系数,并计算所有文本语句的平均语法关系数,将所述平均句长,所述第一比例,所述第二比例和所述平均语法关系数作为文本特征。
6.如权利要求1所述的财报的阅读难度计算方法,其特征在于,所述根据所述文本特征,训练预设神经网络,得到目标神经网络的步骤包括:
将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵;
将所述第一矩阵与激活层中的线性整流函数进行运算,得到第二矩阵,其中,所述激活层属于所述预设神经网络;
对所述第二矩阵进行第二线性运算和逻辑回归运算,得到概率值集合;
根据所述概率值集合中的概率值,计算所述概率值集合的交叉熵损失,并根据所述交叉熵损失,对所述第一线性运算的第一参数,以及所述第二线性运算的第二参数进行调整,以完成所述预设神经网络的训练,得到目标神经网络。
7.如权利要求6所述的财报的阅读难度计算方法,其特征在于,所述根据所述交叉熵损失,对所述第一线性运算的参数,以及所述第二线性运算的参数进行调整的步骤包括:
按照预设单一调整原则对所述第一参数和所述第二参数进行调整;
当调整完成后,返回将所述文本特征输入预设神经网络,得到特征矩阵,并对所述特征矩阵进行第一线性运算,得到第一矩阵的步骤,并对比循环前后得到的交叉熵损失;
根据对比结果,按照预设单一调整原则对所述第一参数和所述第二参数进行调整,直至得到的交叉熵损失小于预设阈值,完成所述预设神经网络的训练,得到目标神经网络。
8.一种财报的阅读难度计算装置,其特征在于,所述财报的阅读难度计算装置包括:
文本化处理模块,用于从预设数据库获取训练财报,对所述训练财报进行文本化处理,得到财报文本;
文本特征提取模块,用于对所述财报文本进行结构化处理,得到文本信息,并提取所述文本信息中的文本特征;
模型训练模块,用于根据所述文本特征,训练预设神经网络,得到目标神经网络,以通过所述目标神经网络计算待处理财报的阅读难度,其中,所述待处理财报为输入所述目标神经网络中的财报。
9.一种财报的阅读难度计算设备,其特征在于,所述财报的阅读难度计算设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的财报的阅读难度计算程序,所述财报的阅读难度计算程序被所述处理器执行时实现如权利要求1至8中任一项所述的财报的阅读难度计算方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有财报的阅读难度计算程序,所述财报的阅读难度计算程序被处理器执行时实现如权利要求1至8中任一项所述的财报的阅读难度计算方法的步骤。
CN202011514191.5A 2020-12-18 2020-12-18 财报的阅读难度计算方法、装置、设备及可读存储介质 Pending CN112559688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011514191.5A CN112559688A (zh) 2020-12-18 2020-12-18 财报的阅读难度计算方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011514191.5A CN112559688A (zh) 2020-12-18 2020-12-18 财报的阅读难度计算方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112559688A true CN112559688A (zh) 2021-03-26

Family

ID=75030592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011514191.5A Pending CN112559688A (zh) 2020-12-18 2020-12-18 财报的阅读难度计算方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112559688A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434507A (zh) * 2021-06-29 2021-09-24 中国联合网络通信集团有限公司 数据文本化方法、装置、设备及存储介质
CN113592964A (zh) * 2021-06-30 2021-11-02 未鲲(上海)科技服务有限公司 一种图片压缩方法及相关装置
CN113645073A (zh) * 2021-08-11 2021-11-12 未鲲(上海)科技服务有限公司 告警邮件处理方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434507A (zh) * 2021-06-29 2021-09-24 中国联合网络通信集团有限公司 数据文本化方法、装置、设备及存储介质
CN113434507B (zh) * 2021-06-29 2023-07-07 中国联合网络通信集团有限公司 数据文本化方法、装置、设备及存储介质
CN113592964A (zh) * 2021-06-30 2021-11-02 未鲲(上海)科技服务有限公司 一种图片压缩方法及相关装置
CN113645073A (zh) * 2021-08-11 2021-11-12 未鲲(上海)科技服务有限公司 告警邮件处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN112559688A (zh) 财报的阅读难度计算方法、装置、设备及可读存储介质
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN112699645B (zh) 语料标注方法、装置及设备
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
JP2012208589A (ja) 帳票認識装置、帳票認識方法およびそのためのプログラム
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN110866408B (zh) 数据库制作装置以及检索系统
CN114092948B (zh) 一种票据识别方法、装置、设备以及存储介质
CN111400439A (zh) 网络不良数据监控方法、装置及存储介质
CN110750983A (zh) 语料识别方法、装置、设备及计算机可读存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN114996451A (zh) 一种语义类别识别方法、装置、电子设备及可读存储介质
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination