CN109213466A - 庭审信息的显示方法及装置 - Google Patents
庭审信息的显示方法及装置 Download PDFInfo
- Publication number
- CN109213466A CN109213466A CN201710524408.2A CN201710524408A CN109213466A CN 109213466 A CN109213466 A CN 109213466A CN 201710524408 A CN201710524408 A CN 201710524408A CN 109213466 A CN109213466 A CN 109213466A
- Authority
- CN
- China
- Prior art keywords
- court
- sound
- text information
- trial
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000003860 storage Methods 0.000 claims description 34
- 230000005236 sound signal Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000001556 precipitation Methods 0.000 claims description 2
- 241000406668 Loxodonta cyclotis Species 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种庭审信息的显示方法及装置。该方法包括:在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;对每个声音信号进行解析,解析出对应的文本信息;以及通过远程终端显示文本信息。通过本申请,解决了相关技术中在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容的问题。
Description
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种庭审信息的显示方法及装置。
背景技术
在法院庭审过程中,为了体现庭审的公平性,会将审判组织成员及当事人等各庭审对象的发言信息记录下来,整个庭审过程中是速录员对各角色的发言进行实时记录,作为审判依据。然而,在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容。
针对相关技术中在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种庭审信息的显示方法及装置,以解决相关技术中在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种庭审信息的显示方法。该方法包括:在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,所述声卡上的每个声道对应一个声音采集器,所述声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;对每个所述声音信号进行解析,解析出对应的文本信息;以及通过远程终端显示所述文本信息。
进一步地,在对每个所述声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示所述文本信息之前,所述方法还包括:利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;通过远程终端显示所述文本信息包括:通过远程终端显示所述目标文本。
进一步地,在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个所述声音信号进行解析,解析出对应的文本信息之前,所述方法还包括:按照各个声音信号采集时间的顺序发送采集到的声音信号;对每个所述声音信号进行解析,解析出对应的文本信息包括:对接收到的声音信号进行解析,解析出对应的文本信息;在对每个所述声音信号进行解析,解析出对应的文本信息之后,所述方法还包括:将解析出的文本信息存储在对应的声道接收队列中;利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;将所述目标文本存储在远程服务器中;通过远程终端显示所述文本信息包括:显示接收到所述远程服务器发送的所述目标文本。
进一步地,对每个所述声音信号进行解析,解析出对应的文本信息包括:将所述声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词;通过所述多个单词生成所述文本信息。
进一步地,在通过多声道的声卡进行声音采集,采集到多个声音信号之前,所述方法还包括:配置所述声卡上每个声道与每个庭审对象之间的对应关系;按照所述对应关系,将每个庭审对象对应的声音采集器与每个声道进行连接。
为了实现上述目的,根据本申请的另一方面,提供了一种庭审信息的显示装置。该装置包括:采集单元,用于在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,所述声卡上的每个声道对应一个声音采集器,所述声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;解析单元,用于对每个所述声音信号进行解析,解析出对应的文本信息;以及显示单元,用于通过远程终端显示所述文本信息。
进一步地,所述装置还包括:第一生成单元,用于在对每个所述声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示所述文本信息之前,利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;所述显示单元还用于通过远程终端显示所述目标文本。
进一步地,所述装置还包括:发送单元,用于在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个所述声音信号进行解析,解析出对应的文本信息之前,按照各个声音信号采集时间的顺序发送采集到的声音信号;所述解析单元还用于对接收到的声音信号进行解析,解析出对应的文本信息;所述装置还包括:第一存储单元,用于在对每个所述声音信号进行解析,解析出对应的文本信息之后,将解析出的文本信息存储在对应的声道接收队列中;第二生成单元,用于利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;第二存储单元,用于将所述目标文本存储在远程服务器中;所述显示单元还用于显示接收到所述远程服务器发送的所述目标文本。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的庭审信息的显示方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的庭审信息的显示方法。
通过本申请,采用以下步骤:在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;对每个声音信号进行解析,解析出对应的文本信息;以及通过远程终端显示文本信息,解决了相关技术中在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容的问题。通过在庭审过程中采集各个庭审对象的发言声音,对其进行解析,然后通过远程终端将解析出的文本信息进行显示,进而实现了不在庭审现场的关注人员也可以获取到庭审过程中的发言内容的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的庭审信息的显示方法的流程图;
图2是根据本申请实施例中的法庭现场各角色位置分布的示意图;
图3是根据本申请实施例提供的庭审信息的显示方法中的声卡的示意图;
图4是根据本申请实施例提供的庭审信息的显示方法的系统结构图;
图5是根据本申请实施例提供的可选的庭审信息的显示过程的示意图;以及
图6是根据本申请实施例提供的庭审信息的显示装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
声卡也叫音频卡(港台称之为声效卡):声卡是多媒体技术中最基本的组成部分,是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。声卡由各种电子器件和连接器组成。电子器件用来完成各种特定的功能。连接器一般有插座和圆形插孔两种,用来连接输入输出信号。
音素,是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。用国际音标标注语音的方法称作标音法,有宽式和严式两种。宽式标音法以能辨义的音位标音,严式标音法则以严格的音素区别来标音,尽量表现各音素间的区别,宽式标音法采用的符号有限,而严式标音法所采用的符号极多,但两者各有用途。音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标的音标符号与全人类语言的音素一一对应。
根据本申请的实施例,提供了一种庭审信息的显示方法。
图1是根据本申请实施例的庭审信息的显示方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到。
在本申请中,以在法院进行庭审声音采集进行说明,法庭庭审现场各角色的大致位置如图2所示。法庭有多声道声卡,声卡连接至速录员电脑上,声卡上每个声道对应一个话筒(对应上述的声音采集器),将声道与庭审对象关系对应,并按照此对应方式将各角色的话筒连接至声卡,如图3所示。在进行庭审时,通过多声道的声卡采集多个使用话筒的角色的声音,得到多个声音信号。
步骤S102,对每个声音信号进行解析,解析出对应的文本信息。
对每个声音信号进行解析,得到声音信号对应的文本信息可以在声卡端实现,也可以将声音信号发送至语音解析服务器,在语音解析服务器端将声音信号进行解析,返回解析出的文本信息。
可选地,在本申请实施例提供的庭审信息的显示方法中,对每个声音信号进行解析,解析出对应的文本信息包括:将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词;通过多个单词生成文本信息。
在本申请实施例提供的庭审信息的显示方法中的预定条件可以为若干语音帧在某一状态上概率满足概率阈值的条件。在将声音信号解析为对应的文本信息过程中,将声音信号中的语音帧在多个状态上进行匹配,该匹配可以采用遍历的方式进行匹配,例如,将3个连续语音帧与多个状态逐一进行匹配,如果概率都未满足概率阈值,再将4个连续语音帧与多个状态逐一进行匹配,直到多个语音帧在某一状态上概率满足概率阈值为止,将多个语音帧作为一个语音帧组。将该状态即为该语音帧组对应的目标状态。状态作为音素的组成部分,例如对连续的3个目标状态查找对应的音素,将查找到的多个音素组成单词,通过多个单词生成文本信息。对声音信号的波形进行分帧操作。若干帧语音对应一个状态,(相当于将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组),每三个(第一预定数量)状态组合成一个音素,若干个(第二预定数量)音素组合成一个单词。通过多个单词生成文本信息。
步骤S103,通过远程终端显示文本信息。
通过远程终端显示文本信息,从而不在庭审现场的关注人员也可以获取到庭审过程中的发言内容。在本申请中的远程终端可以为PC、PAD、手机等等。
通过上述步骤,在庭审过程中采集各个庭审对象的发言声音,对其进行解析,然后通过远程终端将解析出的文本信息进行显示,进而达到了不在庭审现场的关注人员也可以获取到庭审过程中的发言内容的效果。
为了使不在庭审现场的关注人员可以获取到庭审过程中的各个不同庭审对象角色的发言内容,在本申请实施例提供的庭审信息的显示方法中,在对每个声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示文本信息之前,该方法还包括:利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;通过远程终端显示文本信息包括:通过远程终端显示目标文本。
由于声道与庭审对象存在对应关系,各个文本信息具有归属的声道,因此通过声道作为中介,可以确定各个文本信息对应的庭审对象,因此可以通过远程终端显示包括庭审对象、庭审对象对应的文本信息的目标文本,例如,通过远程终端显示的目标文本为:法官:原告,你主张被告侵犯你发明专利的哪条权利要求;被告:我主张被告侵犯我发明专利的权利要求1-10,等等。从而用户可以直观的获取到庭审现场不同角色的发言信息,也体现了庭审的公平性与公开性。
可选地,在本申请实施例提供的庭审信息的显示方法中,在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个声音信号进行解析,解析出对应的文本信息之前,该方法还包括:按照各个声音信号采集时间的顺序发送采集到的声音信号;对每个声音信号进行解析,解析出对应的文本信息包括:对接收到的声音信号进行解析,解析出对应的文本信息;在对每个声音信号进行解析,解析出对应的文本信息之后,该方法还包括:将解析出的文本信息存储在对应的声道接收队列中;利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;将目标文本存储在远程服务器中;通过远程终端显示文本信息包括:显示接收到远程服务器发送的目标文本。
例如,在庭审过程中,各庭审对象角色主要分为审判组织成员和当事人,在本申请中用R1、R2、R3、R4……表示各庭审对象。用M1、M2、M3、M4……表示各声音采集器,形成庭审对象与声音采集其对应关系{R1,M1}、{R2,M2}、{R3,M3}、{R4,M4},系统结构如图4所示,通过多声道声卡进行声音采集,例如采集到的每25ms为一个波形文件片段,按照顺序排入声道对应的发送队列中。将发送队列中的片段按照顺序发送至语音解析服务器,解析出的文本信息,将其存储在对应的声道接收队列中。从声道对应的文字接收队列中取出文本信息,根据角色话筒对应关系{R1,M1}、{R2,M2}、{R3,M3}、{R4,M4}……将文字信息发送至远端服务器。远端服务器文字队列Q1、Q2、Q3、Q4……,并以{R1,M1,Q1}、{R2,M,Q2}、{R3,M3,Q3}、{R4,M4,Q4}的形式进行存储。{R1,M1,Q1}、{R2,M,Q2}、{R3,M3,Q3}、{R4,M4,Q4}即对应上述的目标文本。在庭审现场之外的远程终端从{R1,M1,Q1}、{R2,M2,Q2}、{R3,M3,Q3}、{R4,M4,Q4}中接收各角色发言的文字信息进行展示,如图5所示。上述技术方案通过对语音识别技术的运用,将庭审过程中各庭审对象的发言进行了创新性的即时展示,使得不在庭审现场的关注者也能即时看到庭审中各角色(庭审对象)的发言信息,体现了庭审的公平性与公开性。
可选地,为了保证能够通过多声道的声卡采集到声音信号,在本申请实施例提供的庭审信息的显示方法中,在通过多声道的声卡进行声音采集,采集到多个声音信号之前,该方法还包括:配置声卡上每个声道与每个庭审对象之间的对应关系;按照对应关系,将每个庭审对象对应的声音采集器与每个声道进行连接。
或者,通过配置每个庭审对象与每个声音采集器之间的对应关系;然后按照对应关系,将每个声音采集器与每个庭审对象对应的声道进行连接。需要说明的是,通过本申请实施例提供的庭审信息的显示方法可以应用在庭审软件中,也即在开始庭审之前,安装该庭审软件,在软件中设置角色声道的对应关系,从而保证了能够通过多声道的声卡采集到声音信号。
本申请实施例提供的庭审信息的显示方法,通过在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;对每个声音信号进行解析,解析出对应的文本信息;以及通过远程终端显示文本信息,解决了相关技术中在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容的问题。通过在庭审过程中采集各个庭审对象的发言声音,对其进行解析,然后通过远程终端将解析出的文本信息进行显示,进而实现了不在庭审现场的关注人员也可以获取到庭审过程中的发言内容的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种庭审信息的显示装置,需要说明的是,本申请实施例的庭审信息的显示装置可以用于执行本申请实施例所提供的用于庭审信息的显示方法。以下对本申请实施例提供的庭审信息的显示装置进行介绍。
图6是根据本申请实施例的庭审信息的显示装置的示意图。如图6所示,该装置包括:采集单元10、解析单元20和显示单元30。
具体地,采集单元10,用于通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到。
解析单元20,用于对每个声音信号进行解析,解析出对应的文本信息。
显示单元30,用于通过远程终端显示文本信息。
本申请实施例提供的庭审信息的显示装置,通过采集单元10通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;解析单元20对每个声音信号进行解析,解析出对应的文本信息;以及显示单元30通过远程终端显示文本信息,解决了相关技术中在庭审过程中无法向不在庭审现场的关注人员即时展示庭审过程中的发言内容的问题,通过在庭审过程中采集各个庭审对象的发言声音,对其进行解析,然后通过远程终端将解析出的文本信息进行显示,进而实现了不在庭审现场的关注人员也可以获取到庭审过程中的发言内容的效果。
可选地,在本申请实施例提供的庭审信息的显示装置中,该装置还包括:第一生成单元,用于在对每个声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示文本信息之前,利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;显示单元还用于通过远程终端显示目标文本;显示单元30还用于通过远程终端显示目标文本。
可选地,在本申请实施例提供的庭审信息的显示装置中,该装置还包括:发送单元,用于在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个声音信号进行解析,解析出对应的文本信息之前,按照各个声音信号采集时间的顺序发送采集到的声音信号;解析单元还用于对接收到的声音信号进行解析,解析出对应的文本信息;装置还包括:第一存储单元,用于在对每个声音信号进行解析,解析出对应的文本信息之后,将解析出的文本信息存储在对应的声道接收队列中;第二生成单元,用于利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;第二存储单元,用于将目标文本存储在远程服务器中;显示单元30还用于显示接收到远程服务器发送的目标文本。
所述庭审信息的显示装置包括处理器和存储器,上述采集单元10、解析单元20和显示单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来显示庭审信息。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的庭审信息的显示方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的庭审信息的显示方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;对每个声音信号进行解析,解析出对应的文本信息;以及通过远程终端显示文本信息。
在对每个声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示文本信息之前,该方法还包括:利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;通过远程终端显示文本信息包括:通过远程终端显示目标文本。
在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个声音信号进行解析,解析出对应的文本信息之前,该方法还包括:按照各个声音信号采集时间的顺序发送采集到的声音信号;对每个声音信号进行解析,解析出对应的文本信息包括:对接收到的声音信号进行解析,解析出对应的文本信息;在对每个声音信号进行解析,解析出对应的文本信息之后,方法还包括:将解析出的文本信息存储在对应的声道接收队列中;利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;将目标文本存储在远程服务器中;通过远程终端显示文本信息包括:显示接收到远程服务器发送的目标文本。
对每个声音信号进行解析,解析出对应的文本信息包括:将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词;通过多个单词生成文本信息。
在通过多声道的声卡进行声音采集,采集到多个声音信号之前,该方法还包括:配置声卡上每个声道与每个庭审对象之间的对应关系;按照对应关系,将每个庭审对象对应的声音采集器与每个声道进行连接。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,声卡上的每个声道对应一个声音采集器,声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;对每个声音信号进行解析,解析出对应的文本信息;以及通过远程终端显示文本信息。
在对每个声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示文本信息之前,该方法还包括:利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;通过远程终端显示文本信息包括:通过远程终端显示目标文本。
在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个声音信号进行解析,解析出对应的文本信息之前,该方法还包括:按照各个声音信号采集时间的顺序发送采集到的声音信号;对每个声音信号进行解析,解析出对应的文本信息包括:对接收到的声音信号进行解析,解析出对应的文本信息;在对每个声音信号进行解析,解析出对应的文本信息之后,方法还包括:将解析出的文本信息存储在对应的声道接收队列中;利用每个声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,目标文本至少包括庭审对象和文本信息;将目标文本存储在远程服务器中;通过远程终端显示文本信息包括:显示接收到远程服务器发送的目标文本。
对每个声音信号进行解析,解析出对应的文本信息包括:将声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;确定每个语音帧组对应的目标状态,得到多个目标状态;对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;基于连续的第二预定数量的音素生成对应的单词,得到多个单词;通过多个单词生成文本信息。
在通过多声道的声卡进行声音采集,采集到多个声音信号之前,该方法还包括:配置声卡上每个声道与每个庭审对象之间的对应关系;按照对应关系,将每个庭审对象对应的声音采集器与每个声道进行连接。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种庭审信息的显示方法,其特征在于,包括:
在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,所述声卡上的每个声道对应一个声音采集器,所述声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;
对每个所述声音信号进行解析,解析出对应的文本信息;以及
通过远程终端显示所述文本信息。
2.根据权利要求1所述的方法,其特征在于,在对每个所述声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示所述文本信息之前,所述方法还包括:
利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;
通过远程终端显示所述文本信息包括:通过远程终端显示所述目标文本。
3.根据权利要求1所述的方法,其特征在于,
在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个所述声音信号进行解析,解析出对应的文本信息之前,所述方法还包括:按照各个声音信号采集时间的顺序发送采集到的声音信号;
对每个所述声音信号进行解析,解析出对应的文本信息包括:对接收到的声音信号进行解析,解析出对应的文本信息;
在对每个所述声音信号进行解析,解析出对应的文本信息之后,所述方法还包括:将解析出的文本信息存储在对应的声道接收队列中;利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;将所述目标文本存储在远程服务器中;
通过远程终端显示所述文本信息包括:显示接收到所述远程服务器发送的所述目标文本。
4.根据权利要求1所述的方法,其特征在于,对每个所述声音信号进行解析,解析出对应的文本信息包括:
将所述声音信号中的语音帧按照预定条件进行划分,得到多个语音帧组;
确定每个语音帧组对应的目标状态,得到多个目标状态;
对连续的第一预定数量的目标状态查找对应的音素,得到多个音素;
基于连续的第二预定数量的音素生成对应的单词,得到多个单词;
通过所述多个单词生成所述文本信息。
5.根据权利要求1所述的方法,其特征在于,在通过多声道的声卡进行声音采集,采集到多个声音信号之前,所述方法还包括:
配置所述声卡上每个声道与每个庭审对象之间的对应关系;
按照所述对应关系,将每个庭审对象对应的声音采集器与每个声道进行连接。
6.一种庭审信息的显示装置,其特征在于,包括:
采集单元,用于在庭审过程中,通过多声道的声卡进行声音采集,采集到多个声音信号,其中,所述声卡上的每个声道对应一个声音采集器,所述声音信号由每个声音采集器采集对应的庭审对象的发言声音得到;
解析单元,用于对每个所述声音信号进行解析,解析出对应的文本信息;以及
显示单元,用于通过远程终端显示所述文本信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一生成单元,用于在对每个所述声音信号进行解析,解析出对应的文本信息之后,在通过远程终端显示所述文本信息之前,利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;
所述显示单元还用于通过远程终端显示所述目标文本。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
发送单元,用于在通过多声道的声卡进行声音采集,采集到多个声音信号之后,在对每个所述声音信号进行解析,解析出对应的文本信息之前,按照各个声音信号采集时间的顺序发送采集到的声音信号;
所述解析单元还用于对接收到的声音信号进行解析,解析出对应的文本信息;
所述装置还包括:第一存储单元,用于在对每个所述声音信号进行解析,解析出对应的文本信息之后,将解析出的文本信息存储在对应的声道接收队列中;第二生成单元,用于利用每个所述声音信号对应的文本信息、该文本信息归属的声道和该声道与庭审对象的对应关系生成目标文本,其中,所述目标文本至少包括所述庭审对象和所述文本信息;第二存储单元,用于将所述目标文本存储在远程服务器中;
所述显示单元还用于显示接收到所述远程服务器发送的所述目标文本。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的庭审信息的显示方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的庭审信息的显示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710524408.2A CN109213466B (zh) | 2017-06-30 | 2017-06-30 | 庭审信息的显示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710524408.2A CN109213466B (zh) | 2017-06-30 | 2017-06-30 | 庭审信息的显示方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213466A true CN109213466A (zh) | 2019-01-15 |
CN109213466B CN109213466B (zh) | 2022-03-25 |
Family
ID=64961098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710524408.2A Active CN109213466B (zh) | 2017-06-30 | 2017-06-30 | 庭审信息的显示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213466B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015858A (zh) * | 2019-05-30 | 2020-12-01 | 阿里巴巴集团控股有限公司 | 信息的检测方法、设备及存储介质 |
CN114143128A (zh) * | 2021-12-08 | 2022-03-04 | 北京帝派智能科技有限公司 | 麦克风和声卡通道对应关系构建方法、装置及会议系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1946065B (zh) * | 2005-10-03 | 2012-01-11 | 纽昂斯通讯公司 | 通过可听信号来注释即时消息的方法和系统 |
CN104869341A (zh) * | 2015-05-25 | 2015-08-26 | 上海琨视电子科技有限公司 | 一种实现庭审文本与庭审音像同步回放的方法及系统 |
JP2016101261A (ja) * | 2014-11-27 | 2016-06-02 | 株式会社コロプラ | サウンドメッセージシステム |
CN205647778U (zh) * | 2016-04-01 | 2016-10-12 | 安徽听见科技有限公司 | 一种智能会议系统 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106782551A (zh) * | 2016-12-06 | 2017-05-31 | 北京华夏电通科技有限公司 | 一种语音识别系统及方法 |
-
2017
- 2017-06-30 CN CN201710524408.2A patent/CN109213466B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1946065B (zh) * | 2005-10-03 | 2012-01-11 | 纽昂斯通讯公司 | 通过可听信号来注释即时消息的方法和系统 |
JP2016101261A (ja) * | 2014-11-27 | 2016-06-02 | 株式会社コロプラ | サウンドメッセージシステム |
CN104869341A (zh) * | 2015-05-25 | 2015-08-26 | 上海琨视电子科技有限公司 | 一种实现庭审文本与庭审音像同步回放的方法及系统 |
CN205647778U (zh) * | 2016-04-01 | 2016-10-12 | 安徽听见科技有限公司 | 一种智能会议系统 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106782551A (zh) * | 2016-12-06 | 2017-05-31 | 北京华夏电通科技有限公司 | 一种语音识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
栾悉道,谢毓湘,老松杨: "《多媒体情报处理技术[M]》", 31 December 2016 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015858A (zh) * | 2019-05-30 | 2020-12-01 | 阿里巴巴集团控股有限公司 | 信息的检测方法、设备及存储介质 |
CN112015858B (zh) * | 2019-05-30 | 2024-02-13 | 阿里巴巴集团控股有限公司 | 信息的检测方法、设备及存储介质 |
CN114143128A (zh) * | 2021-12-08 | 2022-03-04 | 北京帝派智能科技有限公司 | 麦克风和声卡通道对应关系构建方法、装置及会议系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109213466B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106373580B (zh) | 基于人工智能的合成歌声的方法和装置 | |
CN101079301B (zh) | 一种计算机实现的创建从文本到音频记录的时序映射方法 | |
TWI711967B (zh) | 播報語音的確定方法、裝置和設備 | |
WO2021083071A1 (zh) | 语音转换、文件生成、播音、语音处理方法、设备及介质 | |
US20080161948A1 (en) | Supplementing audio recorded in a media file | |
CN109257659A (zh) | 字幕添加方法、装置、电子设备及计算机可读存储介质 | |
CN110197658A (zh) | 语音处理方法、装置以及电子设备 | |
CN109285537A (zh) | 声学模型建立、语音合成方法、装置、设备及存储介质 | |
CN107437413A (zh) | 语音播报方法及装置 | |
CN108012173A (zh) | 一种内容识别方法、装置、设备和计算机存储介质 | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
WO2021259300A1 (zh) | 音效添加方法和装置、存储介质和电子设备 | |
CN110264992A (zh) | 语音合成处理方法、装置、设备和存储介质 | |
CN112927674B (zh) | 语音风格的迁移方法、装置、可读介质和电子设备 | |
CN108986841A (zh) | 音频信息处理方法、装置及存储介质 | |
CN112116903A (zh) | 语音合成模型的生成方法、装置、存储介质及电子设备 | |
CN110136715A (zh) | 语音识别方法和装置 | |
CN112185363A (zh) | 音频处理方法及装置 | |
CN109215659A (zh) | 语音数据的处理方法、装置和系统 | |
CN109213466A (zh) | 庭审信息的显示方法及装置 | |
CN110019923A (zh) | 语音消息的查找方法及装置 | |
CN104882146B (zh) | 音频推广信息的处理方法及装置 | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
CN1522430A (zh) | 对文本数据进行编码,以包含用在文本-语音(tts)系统中的增强型语音数据的方法以及解码方法,tts系统和包含所述tts系统的移动电话 | |
CN109213971A (zh) | 庭审笔录的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |